OpenAI laajensi Realtime-API:taan kolmella uudella ääni-mallilla. GPT-Realtime-2 tuo GPT-5-luokan päättelyn live-keskusteluihin, GPT-Realtime-Translate kääntää 70 kielestä 13:lle ja GPT-Realtime-Whisper litteroi puhetta reaaliajassa. Mallit julkaistiin 7. toukokuuta.

Päivitys merkitsee vaihetta, jossa ääniagentit eivät enää vain reagoi puheeseen. Ne pystyvät päättelemään, kutsumaan työkaluja rinnakkain ja palaamaan käyttäjän aiempaan kysymykseen kesken keskustelun. OpenAI:n virallisen blogin mukaan kolme uutta mallia kattavat erikseen päättelyn, käännöksen ja transkription.

GPT-Realtime-2 päättelee keskellä keskustelua


GPT-Realtime-2 on OpenAI:n ensimmäinen ääni-malli, joka tuo GPT-5-luokan päättelyn realtime-rajapintaan. Malli osaa kutsua useita työkaluja rinnakkain ja kertoa käyttäjälle, mitä se tekee taustalla. Konteksti-ikkuna kasvoi 32 000 tokenista 128 000:een, mikä mahdollistaa pidemmät agenttipohjaiset työnkulut.

Kehittäjille avautuu uusia hallintamekanismeja. Reasoning effort -tasot ulottuvat nyt minimal-tasolta xhigh-tasolle, ja preamble-fraasit kuten "hetki, tarkistan tämän" pitävät keskustelun käynnissä mallin tehdessä taustatöitä. Sävyä voi säätää tilanteen mukaan: rauhalliseksi reklamaatioissa, innostuneeksi onnistumisten yhteydessä.

Big Bench Audio -arvioinnissa GPT-Realtime-2 (high) suoriutui 15,2 prosenttiyksikköä paremmin kuin edeltäjänsä GPT-Realtime-1.5. Audio MultiChallenge -testissä parannus oli 13,8 prosenttiyksikköä xhigh-asetuksella. Zillow raportoi 26 prosenttiyksikön nousun puhelujen onnistumisprosentissa omalla benchmarkillaan.



Hehkuva ääniaalto neuroverkon kanssa, joka kuvastaa ääni-agentin päättelyä.


Live-käännös tukee yli 70 kieltä


GPT-Realtime-Translate on suunnattu käyttötapauksiin, joissa keskustelu kulkee kahden kielen välillä reaaliajassa. Malli tukee yli 70 syöttökieltä ja 13 kohdekieltä, mukaan lukien useat aasialaiset kielet. OpenAI nimeää asiakaspalvelun, koulutuksen ja kansainväliset tapahtumat ensisijaisiksi käyttökohteiksi.

Käännöksen laatu nojaa siihen, että malli säilyttää merkityksen myös silloin, kun puhuja vaihtaa kontekstia tai käyttää alueellista ääntämystä. Deutsche Telekom testaa palvelua monikielisissä asiakaspalvelutilanteissa. Intialainen BolnaAI mittasi 12,5 prosenttiyksikköä matalamman sanavirheasteen hindiksi, tamiliksi ja telugu-kielelle muihin testaamiinsa malleihin verrattuna.

Vimeo demonstroi mallin kykyä kääntää tuotekoulutusvideoita lennosta. Käyttäjä kuulee päivityksen omalla kielellään ilman, että erikseen tuotettua versiota tarvitaan.



Maapallo, jonka mantereita yhdistävät ääniaaltoviivat reaaliaikaista käännöstä kuvaamassa.


Whisper-malli litteroi virtaavasti


GPT-Realtime-Whisper streamaa transkriptiota suoraan puhuessa. Malli on suunniteltu käyttötapauksiin, joissa kuullun tekstin pitää näkyä saman tien — kokousmuistiinpanoihin, luentosaleihin, suoriin tekstityksiin ja asiakaspalveluintegraatioihin.

Latenssi-painottuneesta arkkitehtuurista hyötyvät erityisesti agentit, joiden täytyy ymmärtää käyttäjää keskeytyksettä. Whisper-mallin avulla kysymys voidaan reitittää työkaluille jo keskellä lausetta, mikä lyhentää reagointiaikaa korkean kuormituksen tilanteissa.



Virtaavia valoraitoja tummalla taustalla, joka kuvaa reaaliaikaista transkriptiota.


Hinnoittelu ja saatavuus


GPT-Realtime-2 hinnoitellaan 32 dollariin miljoonalta syöttötokenilta ja 64 dollariin miljoonalta tulostokenilta. Cachetetut syöttötokenit maksavat 0,40 dollaria. Translate-malli veloitetaan minuuttiperusteisesti 0,034 dollaria, ja Whisper 0,017 dollaria minuutilta.

Mallit ovat saatavilla Realtime-API:ssa heti. EU-asiakkaiden datansäilytys on tuettu, ja kehittäjät voivat lisätä omia turvasuojauksia Agents-SDK:n kautta. Kokeilun voi aloittaa Codex-sovelluksen kautta tai suoraan Playgroundissa.



Modernin kehittäjän työpöytä mikrofonin ja API-mittarinäkymän kanssa.


Yhteenveto


Realtime-API:n päivitys vahvistaa OpenAI:n asemaa puhepohjaisten agenttien tarjoajana. Päättely, käännös ja transkriptio asettuvat samaan pinoon, mikä yksinkertaistaa monikielisten ja agenttipohjaisten ääni-tuotteiden rakentamista.

Hinnoittelu on lähellä edellisen sukupolven tasoa, mutta päättelykapasiteetti ja kontekstin pituus on selvästi suurempi. Tuotantoon vietävät ääniagentit hyötyvät erityisesti rinnakkaisista työkalukutsuista ja sävyn hallinnasta.