Microsoft Webwright: terminaali korvaa selaimen

Microsoft Researchin AI Frontiers -laboratorio julkaisi avoimena lähdekoodina Webwrightin, web-agenttirungon, joka antaa kielimallille pääsyn terminaaliin selainsession sijasta. Agentti kirjoittaa Playwright-koodia, ajaa bash-komentoja ja jalostaa skriptejä silmukassa, kunnes tehtävä on valmis.

Vaikutus näkyy heti vertailutuloksissa. GPT-5.4:n päälle rakennettuna Webwright nousi Odysseys-listalla 60,1 prosenttiin, mikä on 35,1 prosentin parannus aiempaan huippuun. Saman mallin paljas tulos ilman runkoa oli vain 33,5 prosenttia.

Terminaali korvaa selainsession ja koodista tulee pysyvä artefakti

Perinteinen selainagentti ennustaa yhden napautuksen kerrallaan ja pitää selainsessiota auki tilana, jota se manipuloi. Webwright kääntää asetelman ympäri. Agentti saa työpisteekseen terminaalin ja kohtelee selainta välineenä, jonka se voi käynnistää, tarkastaa ja sulkea ohjelmoidessaan skriptejä.

Pysyvä artefakti ei ole selainsessio vaan paikalliseen kansioon kertyvät Playwright-skriptit ja lokitiedostot. Kun seuraava tehtävä saapuu, agentti voi käyttää uudelleen aiempia skriptejä tai jalostaa niitä eteenpäin sen sijaan, että aloittaisi joka kerta tyhjältä pöydältä.

Microsoft on pakannut rungon poikkeuksellisen ohueksi. Koko harness on noin 1 000 koodiriviä jaettuna kolmeen moduuliin: Runner, Model Endpoint ja terminaaliympäristö. Mukana ei ole monitasoorkestrointia eikä monimutkaista suunnittelua, pelkkä yksittäinen agenttisilmukka.

Kehittäjän tumma terminaali-ikkuna kaarinäytöllä ja taustalla Chromium-selain testattavana, hämärä työpiste.

Tulokset päihittävät aiemman tason kahdessa keskeisessä vertailussa

Odysseys mittaa pitkäkestoisia selaintehtäviä, joissa ohjeistus venyy keskimäärin 272,3 sanaan ja navigointi ulottuu monelle sivustolle. Huhtikuun listalla parhaana oli Anthropicin Opus 4.6 tuloksella 44,5 prosenttia. Webwright GPT-5.4:n päällä nousee 60,1 prosenttiin, eli 26,6 absoluuttista pistettä paljaan mallin ylle.

Toinen mittari, Online-Mind2Web, mittaa selaintehtäviä rajatummalla 100 askeleen budjetilla. Webwright pääsee siinä 86,7 prosenttiin GPT-5.4:llä. Avoimen Qwen3.5-9B:n suoritus puolestaan nousi vaikean osajoukon kohdalla 66,2 prosenttiin, kun runkoon kytkettiin valmiita työkaluskriptejä.

Erot kertovat siitä, että suuri osa selainagenttien aiemmasta vaivannäöstä on koitunut käyttöliittymäkokemuksen rakentamisesta, ei mallin päättelykyvystä. Kun malli saa kirjoittaa koodia tutussa muodossa, sama mallin paino tuottaa selvästi paremman tuloksen.

Pelkistetty datavisualisointi, jossa pylväät nousevat matalammista vertailutuloksista huomattavasti korkeampaan tulokseen oikealla.

Yhden agentin silmukka korvaa moniorkestrointia

Webwrightin ohjenuora on yksinkertaisuus. Yksi agentti, yksi malli, yksi terminaali. Runner on noin 150 riviä, mallirajapinta noin 550 ja ympäristö noin 300, eikä mukana ole erillistä suunnittelijaa, kriittistä reflektoria tai useamman agentin välistä äänestystä.

Microsoft Research argumentoi, että tarkasti kohdennettu työkalukokoelma ja yhden mallin täysi konteksti tuottavat luotettavammin tulosta kuin pino erikoistuneita aliagentteja. Suunnitteluvalinta on linjassa Webwrightin tulosten kanssa, ja tutkijat asettavat sen vastapainoksi laajemmin levinneelle moniagenttitrendille.

Käytännössä silmukka kompiloi, mittaa ja korjaa skriptin samassa istunnossa. Agentti tarkastaa lokit, havaitsee virheilmoituksen, kirjoittaa korjauksen ja ajaa skriptin uudelleen ilman, että toinen taso miettii välissä.

Yksittäinen pyöreä silmukkanuoli ja kolme geometrista solmua tummalla taustalla, kuvastaa yksinkertaista agenttisilmukkaa.

Skriptit toimivat Claude Codessa ja Codexissä uudelleenkäytettävinä CLI-työkaluina

Webwright on lähtenyt jakoon avoimena, ja sen taustalla toimivat OpenAI:n, Anthropicin ja OpenRouterin rajapinnat. Microsoft on lisäksi paketoinut Webwrightin omaksi Claude Code -skilliksi, jolloin kehittäjä saa rungon käyttöönsä ilman uutta API-avainta.

Agentin tuottamat skriptit pakataan uudelleenkäytettäviksi CLI-työkaluiksi, jotka kelpaavat sellaisinaan Claude Coden, Codexin ja OpenClawin kaltaisille agenteille. Kerran kirjoitettu työnkulku, kuten lentojen vertailu tai laskutusraportin lataus, päätyy tiimin yhteiseen työkalupakkiin.

Microsoftin tutkijat suosittelevat avaamaan myös valmiin tehtäväkohtaisen skriptikirjaston. Sen avulla pienempi malli pärjää usein samalla tasolla kuin huomattavasti suurempi runko, ja kustannusero näkyy tunneissa ja tokeneissa.

Ohjelmistokehittäjän kädet mekaanisella näppäimistöllä ja kolme näyttöä, joissa eri kehitysympäristöjä ja komentokehotteita.

Yhteenveto

Webwright haastaa selainagenttien aiemman peruslähtökohdan, jossa malli ennustaa yhden napautuksen kerrallaan stateful-sessiossa. Kun selain muuttuu työkaluksi ja terminaali pysyväksi työpisteeksi, sama frontiersarjan malli nousee yhtäkkiä kahden prosenttiluvun parannuksesta uudeksi huipuksi.

Kehittäjälle viesti on selvä. Avoin runko, kevyt arkkitehtuuri ja yhteensopivuus suurimpien agenttirajapintojen kanssa tekevät Webwrightista helpon kokeilukohteen, jossa pieni alkuinvestointi voi maksaa itsensä takaisin uudelleenkäytettävinä skripteinä.

Microsoft julkaisi Webwrightin, joka korvaa selaimen terminaalilla

Terminaali korvaa selainsession ja koodista tulee pysyvä artefakti

Tulokset päihittävät aiemman tason kahdessa keskeisessä vertailussa

Yhden agentin silmukka korvaa moniorkestrointia

Skriptit toimivat Claude Codessa ja Codexissä uudelleenkäytettävinä CLI-työkaluina

Yhteenveto

Aiheeseen liittyvät artikkelit

Mistral Robostral Navigate ohjaa robottia yhdellä kameralla

OpenAI julkaisi GPT-Liven: ChatGPT puhuu ja kuuntelee

Microsoft julkaisi MAI-Code-1-Flashin GitHub Copilotiin