DeepMindin AI-matemaatikko: 48 % FrontierMath Tier 4

Google DeepMindin tutkijat julkaisivat AI Co-Mathematicianin, agenttipohjaisen tutkimustyöpöydän, joka tukee matemaatikoita avoimissa ongelmissa. Järjestelmä saavutti uuden huippupisteen FrontierMath Tier 4 -arvioinnissa.

Tutkimusartikkeli ilmestyi arXiviin 8. toukokuuta, ja kansainvälinen huomio kasvoi tällä viikolla. Toisin kuin tavallinen chatbot, AI Co-Mathematician orkestroi useita erikoistuneita agentteja yhden projektikoordinaattorin alla. Tavoitteena on tarjota matemaatikolle pysyvä työtila, joka muistaa aiemmat yritykset ja sietää tutkimukselle tyypillistä epävarmuutta.

Stateful työpöytä, joka muistaa epäonnistumiset

Järjestelmä toimii Gemini 3.1 Pro -mallin päällä eikä vaadi uutta perusmallia. Projektikoordinaattori-agentti jakaa tehtäviä rinnakkaisille työvuoroille ja pitää tutkimuksen tilan tallessa.

Erikoistuneet agentit hoitavat kirjallisuushakua, koodin ajamista ja päättelyä omina virtoinaan. Erilliset arvostelija-agentit käyvät läpi todistuksia ja palauttavat virheilmoitukset takaisin tehtävää tehneelle agentille. Kun yksi haara osuu umpikujaan, toiset jatkavat työtään, ja koordinaattori voi suunnata resurssit uudelleen ilman että tutkijan tarvitsee odottaa pitkää autonomista ajoa loppuun.

Tutkija voi siis seurata yhtaikaa useita hypoteeseja, eikä järjestelmä jää jumiin yhteen päättelyketjuun. Epäonnistuneet yritykset säilyvät muistissa, ja niistä voi nähdä, miksi tietty reitti ei toiminut. Tämä "negatiivinen tila" antaa tutkijalle aineksia päätellä, milloin lähestymistapaa kannattaa vaihtaa.

Tutkimusartikkelin tekijät korostavat, että työpöytä on harness, eli kerros tunnetun mallin päällä, eikä järjestelmä vaadi mukautettua koulutusta. Sama ratkaisu toimii myös tulevien Gemini-versioiden kanssa, kun ne julkaistaan.

Tutkijan työpöytä kolmella näytöllä, joilla pyörii rinnakkain matemaattisia työvuoroja: kaavoja, kirjallisuushaku ja koodieditori

Ennätys vaikealla FrontierMath-testillä

AI Co-Mathematician ratkaisi 23 ongelmaa 48:sta FrontierMath Tier 4 -arvioinnissa eli 48 prosenttia. Phemexin uutiskoosteen mukaan aiemman huipputuloksen piti GPT-5.5 Pro 39,6 prosentilla.

Tier 4 on Epoch AI -tutkimuslaitoksen vaikein luokka. Se koostuu noin 50 ongelmasta, jotka professorit ja tutkijatohtorit ovat suunnitelleet lyhyiksi tutkimusprojekteiksi. Epoch AI kuvaa, että osa tasosta saattaa pysyä ratkaisematta tekoälyltä vielä vuosikymmeniä. Aiemmin Tier 4 -ongelmista parhaatkin järjestelmät olivat selvinneet vain alle 40 prosentin tarkkuudella.

Sama Gemini 3.1 Pro -malli ylsi yksin vain 19 prosenttiin. Hyppy 48 prosenttiin viittaa siihen, että hyöty syntyy rinnakkaisesta haarautuvasta tutkimustyöstä ja tarkasta arvostelusta, ei mallin koosta. Mittakaava on kova: vielä vuoden 2024 lopulla parhaat mallit ratkaisivat FrontierMathin koko kokoelmasta alle kaksi prosenttia.

Abstrakti tulostaulun visualisointi tummalla näytöllä, nousevat pylväät hehkuvat sinivihreänä ja kullanvärisenä

Kourovkan vihko ja avoimet ongelmat

Julkaisun mukaan järjestelmä auttoi matemaatikko Marc Lackenbyä ratkaisemaan pitkään avoinna olleen otaksuman Kourovkan vihkosta. Kyseessä on kuuluisa, vuosikymmeniä päivitetty ryhmäteorian ongelmakokoelma, johon matemaatikot ympäri maailmaa lisäävät avoimia kysymyksiä. Yksittäisen otaksuman ratkaisu on konkreettinen näyttö siitä, että agenttiyhdistelmä pystyy tuottamaan uutta matemaattista tietoa, ei vain toistamaan tunnettuja todistuksia.

AI Co-Mathematician löysi myös kolme ongelmaa, joita yksikään aiemmin testattu järjestelmä ei ole ratkaissut. Toisaalta se epäonnistui kahdessa ongelmassa, jotka muut järjestelmät olivat aiemmin selvittäneet.

Sisäisellä sadan ongelman tutkimuskokoelmalla järjestelmä pääsi 87 prosenttiin. Gemini 3.1 Pro pärjäsi samalla testillä 57 prosentilla ja Gemini 3.1 Deep Think 70 prosentilla. Ero kasvoi sitä mukaa, kun ongelmat vaativat aiempaa kirjallisuuden hallintaa.

Tutkimusartikkelin mukaan järjestelmä auttoi avaamaan myös aivan uusia tutkimussuuntia ja löysi ylihuomattuja viittauksia kirjallisuudesta. Tämä on hyödyllisempi kontribuutio matemaatikon arjessa kuin yksittäisten kilpailutehtävien ratkominen.

Avattu nahkaselkäinen matemaatikon muistikirja, jossa käsin piirrettyjä ryhmäteorian Cayley-graafeja ja algebran todistuksia

Mihin DeepMind kohdistaa työn seuraavaksi

Google julkaisi järjestelmän aluksi rajoitettuun sisäiseen käyttöön valikoidulle joukolle matemaatikoita. Yhtiön mukaan tarkoitus on rakentaa myöhempiä tuotteita, jotka avaavat työkalun laajemmalle yhteisölle. Aikataulua tai julkista beetaa ei ole vielä luvattu.

Arkkitehtuuri on modulaarinen, joten siihen voidaan myöhemmin liittää muita DeepMindin tutkimustyökaluja. Listalla ovat esimerkiksi formaaliin todistukseen erikoistunut AlphaProof ja algoritmien evoluutioon kehitetty AlphaEvolve.

Käytännössä DeepMind viestii nyt, että agenttiarkkitehtuuri voi tuoda tutkimusluokan tuloksia ilman uutta mallin koulutuskierrosta. Sama Gemini-pohja, oikeat työkalut ja kurinalainen tarkistuskierros riittävät. Sama oppi näkyy myös AlphaEvolvessa, joka siirtyi tällä viikolla pilotista Googlen ydintuotantoon.

Modulaarinen arkkitehtuuri hehkuvista verkostosolmuista ja läpikuultavista geometrisistä lohkoista tummassa avaruudessa

Yhteenveto

AI Co-Mathematician ei ole uusi malli vaan kerros sen päällä. Tekninen lähestymistapa puristaa Gemini 3.1 Prosta huomattavasti enemmän kuin chatbot-käyttöliittymä, ja 48 prosentin pistemäärä FrontierMath Tier 4:llä siirtää rajaa siinä, mitä tekoälyltä odotetaan tutkimustason matematiikassa.

Seuraava virstanpylväs on, kuinka nopeasti DeepMind avaa työpöydän laajemmalle yleisölle ja millaisia avoimia kysymyksiä muut tutkijaryhmät pystyvät sen avulla taklaamaan. Sillä ratkeaa, mihin matemaattisen tutkimuksen rajat asettuvat seuraavan vuoden aikana.

DeepMindin AI-matemaatikko rikkoi FrontierMath-ennätyksen

Stateful työpöytä, joka muistaa epäonnistumiset

Ennätys vaikealla FrontierMath-testillä

Kourovkan vihko ja avoimet ongelmat

Mihin DeepMind kohdistaa työn seuraavaksi

Yhteenveto

Aiheeseen liittyvät artikkelit

OpenAI julkaisi GPT-5.6:n: Sol, Terra ja Luna saataville

Mistral Robostral Navigate ohjaa robottia yhdellä kameralla

OpenAI julkaisi GPT-Liven: ChatGPT puhuu ja kuuntelee