OpenAI julkisti tänään tutkimusesikatselun GPT-5.3-Codex-Sparkista, ensimmäisestä mallista, joka on suunniteltu nimenomaan reaaliaikaiseen koodaukseen. Yhtiön virallisen blogimerkinnän mukaan Codex-Spark on pienempi versio GPT-5.3-Codexista ja toimii Cerebraksen Wafer Scale Engine 3 -kiihdyttimellä, joka tuottaa yli 1000 tokenia sekunnissa.

Aiemmat huippumallit ovat loistaneet pitkissä, tuntien tai jopa päivien mittaisissa tehtävissä, joissa malli työskentelee itsenäisesti. Codex-Spark vie suuntaa toiseen päähän. Se on viritetty pikemminkin nopeaan iterointiin: kohdistettuihin muokkauksiin, logiikan uudelleenmuotoiluun ja käyttöliittymien hiomiseen niin, että tuloksia näkee välittömästi.

Nopeus muuttaa koodausvuorovaikutuksen


OpenAI kuvaa Codex-Sparkia mallina, jossa latenssi merkitsee yhtä paljon kuin älykkyys. Kehittäjä voi keskustella mallin kanssa lähes reaaliajassa, keskeyttää sen, ohjata uuteen suuntaan ja saada vastauksen kymmeniä kertoja nopeammin kuin perinteisillä malleilla.

Käytännössä Codex-Spark tekee oletuksena minimaalisia, kohdistettuja muutoksia eikä aja testejä automaattisesti. Tämä kevyt työskentelytapa tukee tiukkaa iterointia: kehittäjä testaa, muokkaa ja testaa uudelleen ilman, että jokainen kierros kestää minuutteja.

OpenAI:n omien benchmark-mittausten mukaan Codex-Spark suoriutuu SWE-Bench Pro- ja Terminal-Bench 2.0 -testeistä murto-osassa siitä ajasta, mikä isolla GPT-5.3-Codexilla menee. Tehtävien laadusta ei tingitä juurikaan — pienempi malli tekee saman työn, mutta paljon nopeammin.



Kehittäjän kädet mekaanisella näppäimistöllä, koodieditori virtaa nopeasti tekstiä — kuvituskuva tekoälyn reaaliaikaisesta vasteesta


Cerebras-yhteistyö ja Wafer Scale Engine 3


Codex-Spark pyörii Cerebraksen Wafer Scale Engine 3 -piirillä, joka on suunniteltu nimenomaan korkean nopeuden päättelyyn. OpenAI ja Cerebras solmivat kumppanuuden tammikuussa, ja Codex-Spark on yhteistyön ensimmäinen näkyvä tuotos.

Wafer Scale Engine on kokonainen piilevy yhtenä laskentayksikkönä — radikaalisti suurempi kuin tavallinen GPU. Tämä mahdollistaa erittäin korkean tokenia sekunnissa -nopeuden, koska mallin painot voivat asua kokonaan sirun nopeassa muistissa eikä tietoa tarvitse liikutella eri komponenttien välillä.

GPU:t säilyvät edelleen perustana koulutuksessa ja laajamittaisessa päättelyssä, mutta Cerebras täydentää kuvaa nimenomaan latenssikriittisissä kuormissa. Cerebraksen CTO Sean Lie nostaa OpenAI:n tiedotteessa esiin, että nopea päättely avaa kokonaan uusia vuorovaikutuskuvioita, joita aiemmilla ratkaisuilla ei ole pystytty rakentamaan.



Lähikuva massiivisesta piilevyyn pohjautuvasta tekoälykiihdyttimestä viileän sinisen valon alla — kuvituskuva Cerebraksen Wafer Scale Enginestä


Codex saa kaksi täydentävää toimintatapaa


Codex-Sparkin julkaisu hahmottelee Codexille kaksi rinnakkaista käyttötapaa. Toinen on pitkän aikavälin päättely ja itsenäinen työskentely, jossa agentti tekee laajoja muutoksia tunteja tai päiviä kerrallaan. Toinen on reaaliaikainen yhteistyö, jossa kehittäjä ja malli iteroivat yhdessä lähes samanaikaisesti.

OpenAI:n mukaan tarkoitus ei ole pakottaa valintaa näiden kahden välillä. Tulevissa versioissa Codex voi pitää kehittäjän tiukassa interaktiivisessa silmukassa ja delegoida samaan aikaan pidempiä tehtäviä taustalle ali-agenteille.

Tämä viittaa siihen, että koodausagenttien arkkitehtuuri liikkuu kohti hybridiä: nopea pintamalli vuorovaikutukseen ja syvempi, hitaampi malli vaativaan ratkaisemiseen. Saman kuvion ovat jo aiemmin nostaneet esiin muut frontier-laboratoriot, jotka erottelevat reflektoivat ja nopeat mallit toisistaan.



Abstrakti kahtia jaettu kuva — pitkä polku ja salamannopea kaari, vertaus pitkän aikavälin päättelyn ja reaaliaikaisen iteroinnin välillä


Saatavuus, rajoitukset ja latenssikorjaukset


Codex-Spark on tutkimusesikatselussa ChatGPT Pro -käyttäjille Codex-sovelluksen, CLI:n ja VS Code -laajennuksen uusimmissa versioissa. Saatavuus rajataan erilliseen kiintiöön, koska malli toimii vain erikoislaitteistolla. API-pääsyä on tällä hetkellä vain pienelle joukolle suunnittelupartnereita.

Tekninen kapasiteetti tuo rajoituksia. Codex-Spark tukee 128 000 tokenin kontekstia ja on tekstipohjainen — multimodaalinen syöte tulee myöhempiin malliperheen jäseniin. Käyttömäärät voivat hidastua kysyntäpiikkien aikana, kun OpenAI ja Cerebras kasvattavat datakeskuskapasiteettia.

Julkaisun yhteydessä OpenAI esitteli myös laajempaa latenssitarkennusta. Yhtiö rakensi uudelleen pyyntöjen reitityksen palvelimelle ja takaisin, otti käyttöön pysyvän WebSocket-yhteyden ja optimoi Responses APIn. Kierron yleiskulu putosi 80 prosenttia, tokenikohtainen kulu 30 prosenttia ja aika ensimmäiseen tokeniin 50 prosenttia. Parannukset siirtyvät pian oletukseksi kaikille malleille.



Tyylikäs kehittäjän työpiste, kannettava, kahvikuppi ja muistio aamuvalossa — kuvituskuva tutkimusesikatselun rauhallisesta käyttöönotosta


Yhteenveto


GPT-5.3-Codex-Sparkin julkaisu on merkittävä virstanpylväs, koska se tekee päättelynopeudesta itsenäisen tuoteulottuvuuden mallin älykkyyden rinnalle. Cerebras-yhteistyön myötä OpenAI saa erikoistuneen latenssikerroksen, jonka ympärille voi suunnitella aiempaa tiiviimpiä kehittäjäkokemuksia.

Lyhyellä aikavälillä Codex-Spark koskettaa lähinnä ChatGPT Pro -käyttäjiä, mutta pidemmällä aikajänteellä yhtiön suunnitelma yhdistää nopea ja syvä päättely samaan agenttiarkkitehtuuriin voi muokata sitä, miten kehittäjät käyttävät tekoälyä päivittäisessä työssään.