Claude Opus 4.8 voittaa GPT-5.5:n koodausvertailussa

Anthropic julkaisi torstaina 28. toukokuuta uuden Claude Opus 4.8 -mallin. Se ilmestyi vain 41 päivää edellisen Opus 4.7:n jälkeen ja merkitsee selvää muutosta yhtiön julkaisutahdissa. Hinta säilyi entisellään 5 dollarissa per miljoona syötetokenia ja 25 dollarissa per miljoona ulostulotokenia.

Iso uutinen ei ole pelkkä mallin pisteet. Opus 4.8:n mukana saapuu Dynamic Workflows -ominaisuus Claude Codeen, joka antaa Claudelle mahdollisuuden suunnitella suuria tehtäviä ja jakaa työ kymmenille tai sadoille rinnakkaisille aliagenteille. Anthropicin oman blogin mukaan kyseessä on yhtiön ensimmäinen tuotantotason agenttiparvi.

Päivitys vain 41 päivää 4.7:n jälkeen

41 päivän väli on Opus-luokan mallien nopein koskaan. TechCrunchin haastattelussa Anthropic vahvisti, että yhtiö siirtyy isoista vuosittaisista julkaisuista nopeisiin parannuskierroksiin. Strategiaa selittää sekä Opus 4.7:n viileämpi vastaanotto että kilpailu OpenAI Codexin ja Googlen Gemini Flash -malliperheen kanssa.

Päivitysrytmi kertoo myös sisäisestä koulutusinfrastruktuurin valmiudesta. Anthropic on viimeisen seitsemän kuukauden aikana julkaissut viisi Opus-versiota. Kahden suurimman julkisesti saatavan mallin välinen ero on kaventunut yhteen pisteeseen aggregaattimittareissa.

Anthropic ennakoi samalla seuraavaa askelta. Project Glasswing -ohjelmassa pieni joukko organisaatioita käyttää jo Mythos-luokan esikatselumallia kyberturvatehtäviin. Yleisempi julkaisu vaatii vahvempia suojakerroksia, joita yhtiö kehittää lähiviikkojen aikana.

Minimalistinen kalenteri kahdella merkityllä päivämäärällä symboloi nopeaa julkaisutahtia

SWE-Bench Prossa 10 pisteen etu GPT-5.5:een

Tekninen kärkitulos koskee koodaamista. SWE-Bench Pro -vertailussa Opus 4.8 ratkaisi 69,2 prosenttia tehtävistä, kun GPT-5.5 jää 58,6 prosenttiin. Ero on 10,6 prosenttiyksikköä todellisten ohjelmistovirheiden korjaamisessa.

Päättelyn parantaminen ei jäänyt koodiin. OSWorld-Verified -mittarissa, joka mittaa graafisten käyttöliittymien käyttöä, Opus 4.8 yltää 81,4 prosenttiin GPT-5.5:n 78,7:n sijaan. Vain Terminal-Bench 2.1:ssä GPT-5.5 säilyttää etumatkan komentorivipohjaisissa tehtävissä.

Anthropicin julkaisema malli on myös aiempaa rehellisempi epävarmuudestaan. Yhtiön system cardin mukaan Opus 4.8 on neljä kertaa vähemmän todennäköinen hyväksymään virheellisiä koodimuutoksia kuin Opus 4.7. Malli pidättäytyy useammin vastaamasta, jos varmuutta ei ole, eikä paikkaa puuttuvaa tietoa keksimällä.

Hehkuva pylvästaulukko, jossa yksi palkki kohoaa selvästi muita korkeammalle

Dynaamiset työnkulut tuovat agenttiparvet Claude Codeen

Dynamic Workflows on käytännössä Claude Coden tapa orkestroida tehtäviä isossa mittakaavassa. Käyttäjä antaa toimeksiannon kuten kokonaisen koodikannan migraation, ja Claude suunnittelee työn, käynnistää kymmeniä rinnakkaisia aliagentteja ja varmistaa lopputulokset ennen yhdistämistä.

Anthropic kuvaa esimerkkinä satojen tuhansien koodirivien kehyssiirron olemassa olevan testiavaruuden kanssa. Aikaisemmin viikkojen tai kuukausien työ valmistuu nyt tunneissa. Toiminto avataan tutkimusesikatselussa Max-, Team- ja Enterprise-tilaajille sekä API:n, Amazon Bedrockin, Vertex AI:n ja Microsoft Foundryn kautta.

Käyttöönotto vaatii joko suoraa pyyntöä Claudelta tai uuden ultracode-asetuksen aktivointia. Asetus kuuluu Claude Coden effort-valikkoon, ja se nostaa työpanoksen korkeimmalle tasolle. Enterprise-tileillä toiminto on alkuun pois päältä; ylläpitäjä voi avata sen asetuksista.

Verkkomainen kuvaus rinnakkaisten agenttien parvesta yhteistyössä keskuksen ympärillä

Hintaa ei nostettu ja Fast Mode halpeni kolminkertaisesti

Standardihinnoittelu pysyy ennallaan. Opus 4.8 maksaa 5 dollaria per miljoona syötetokenia ja 25 dollaria per miljoona ulostulotokenia, kuten 4.7. Suurin hintamuutos koskee Fast Mode -tilaa, joka tuottaa vastauksia 2,5-kertaisella nopeudella.

Fast Mode -hinnoittelu putosi 10 dollariin per miljoona syötetokenia ja 50 dollariin per miljoona ulostulotokenia. Edellinen taso oli 30 dollaria sisään ja 150 dollaria ulos. Tämä on kolminkertainen lasku, joka tekee nopeasta tilasta käyttökelpoisen kehityskäytössä eikä vain prototyypeissä.

Lisäksi Messages API ottaa nyt vastaan system-merkinnät keskustelusarjan keskellä. Kehittäjät voivat päivittää Clauden ohjeet ilman, että prompt-välimuisti hajoaa tai päivitys reititetään käyttäjävuoron läpi. Tämä on tärkeää pitkissä agenttiajoissa, joissa konteksti tai oikeudet muuttuvat suorituksen aikana.

Tyylitelty nopeusmittari, jonka neula on käännetty ääriarvoon

Yhteenveto

Opus 4.8 ei ole arkkitehtuurin suuri loikka, mutta yhdistelmä tuo arvoa. Vahvempi koodausmittari, halvempi nopea tila ja dynaamiset agenttiparvet siirtävät Claude Coden uuteen kokoluokkaan. Kilpailu OpenAI:n ja Anthropicin kärkiluokassa on tiivistynyt entisestään.

Seuraava katseen suunta on Anthropicin Project Glasswing -ohjelman Mythos-malli, joka tulee laajaan jakeluun lähiviikkoina. Sen jälkeen markkinan tasapaino voi muuttua jälleen kerran.

Claude Opus 4.8 päihittää GPT-5.5:n ja tuo agenttiparvet

Päivitys vain 41 päivää 4.7:n jälkeen

SWE-Bench Prossa 10 pisteen etu GPT-5.5:een

Dynaamiset työnkulut tuovat agenttiparvet Claude Codeen

Hintaa ei nostettu ja Fast Mode halpeni kolminkertaisesti

Yhteenveto

Aiheeseen liittyvät artikkelit

Microsoft asettuu OpenAI:n ja Anthropicin kilpailijaksi

Claude Opus 5 voitti Vending-Benchin kartellitaktiikalla

Copilot for Wordissa haavoittuvuus: tekoälymato monistuu