Google Research julkaisi TabFM:n, perusmallin joka on suunniteltu taulukkodatalle. Malli tekee sekä luokittelun että regression ilman erillistä koulutusta. Se tuottaa ennusteen uusista tauluista yhdellä ajokerralla. Julkaisu ilmestyi Google Researchin blogissa 30. kesäkuuta.

Taulukkodata on yritysten yleisin datamuoto. Silti sen mallintaminen on vaatinut käsityötä: piirteiden muokkausta, hyperparametrien viritystä ja mallin uudelleenkoulutusta jokaiselle aineistolle erikseen. TabFM lupaa poistaa nämä vaiheet. Idea on tuttu kielimalleista mutta uusi taulukoille.

Mikä TabFM on


TabFM on niin sanottu perusmalli (foundation model), joka on esikoulutettu laajalla datalla ja yleistyy uusiin tehtäviin. Google toi saman ajatuksen aiemmin aikasarjoihin TimesFM-mallilla. Nyt vuorossa on taulukkodata.

Malli ratkaisee kaksi klassista tehtävää. Luokittelussa se päättää, mihin ryhmään rivi kuuluu. Regressiossa se ennustaa numeerisen arvon. Kummassakin tapauksessa vastaus syntyy ilman aineistokohtaista opetusta.

Käyttäjän ei tarvitse virittää mallia eikä rakentaa piirteitä käsin. TabFM lukee annetun taulukon ja antaa ennusteen suoraan. Google kuvaa tätä nollashotti-ennustamiseksi (zero-shot), jossa mallia ei kouluteta kohdetehtävään lainkaan.



Yksi tekoälymalli leijuu jäsennellyn taulukkodatan yllä ja yhdistyy tietosoluihin


Kontekstioppiminen taulukkodatan ytimessä


TabFM:n ydin on kontekstioppiminen (in-context learning). Sama tekniikka tekee suurista kielimalleista joustavia: malli oppii tehtävän suoraan syötteestä ilman painojen päivitystä. TabFM soveltaa ideaa tauluihin.

Käytännössä malli lukee koko datajoukon yhtenä kehotteena. Se saa esimerkkirivit ja niiden oikeat vastaukset ja päättelee niistä säännönmukaisuudet. Uusi ennuste syntyy yhdellä eteenpäinajolla (forward pass).

Arkkitehtuuri yhdistää kaksi aiempaa linjaa. Se lainaa TabPFN-mallien rivi- ja sarakekohtaisen huomiomekanismin sekä TabICL-tyylisen kontekstioppimisen. Yhdistelmä kaappaa piirteiden monimutkaiset vuorovaikutukset natiivisti.



Esimerkkirivit virtaavat yhtenä kehotteena hehkuvaan tekoälyn käsittely-ytimeen


Koulutus synteettisellä datalla


TabFM opetettiin sadoilla miljoonilla synteettisillä datajoukoilla. Ne tuotettiin niin sanotuista rakenteellisista kausaalimalleista (structural causal models), jotka jäljittelevät todellisten aineistojen riippuvuussuhteita.

Laaja synteettinen aineisto antaa mallille näkymän valtavaan kirjoon erilaisia tauluja. Näin se oppii yleistämään ennennäkemättömiin rakenteisiin. Todellista dataa ei tarvita opetusvaiheessa lainkaan.

Google arvioi TabFM:n TabArena-vertailussa, joka laskee malleille Elo-pisteet suorista otteluista. Testi kattoi 38 luokittelu- ja 13 regressioaineistoa, joiden koko vaihteli 700:sta 150 000 riviin. TabFM ohitti huolella viritetyt, alan vakiintuneet menetelmät.



Synteettisiä datajoukkoja tuottavia haarautuvia kausaalimallirakenteita


Mitä tämä tarkoittaa käytännössä


TabFM on jo saatavilla Hugging Facessa ja GitHubissa. Kuka tahansa voi ladata mallin ja ajaa ennusteita omalla datallaan. Painot ja koodi ovat avoimet.

Google vie mallin myös BigQueryyn. Lähiviikkoina käyttäjät voivat tehdä luokittelua ja regressiota suoralla AI.PREDICT-SQL-komennolla. Erillistä koneoppimisosaamista ei tarvita.

Käytännön hyöty osuu analyytikoille ja kehittäjille, jotka työskentelevät taulukkodatan parissa päivittäin. Piirteiden käsityö ja mallien viritys ovat vieneet aikaa. TabFM siirtää työn yhteen ajokertaan.



Data-analyytikon työpöytä, jolla pilvipohjaisen datavaraston ennustenäkymä


Yhteenveto


TabFM tuo perusmallien joustavuuden taulukkodataan, joka on pitkään ollut koneoppimisen työläin osa-alue. Zero-shot-ennustaminen ja kontekstioppiminen karsivat viritystä ja piirteiden käsityötä.

Avoin julkaisu ja tuleva BigQuery-integraatio tekevät mallista helposti kokeiltavan. Jos TabArena-tulokset pitävät myös tuotannossa, taulukkodatan mallinnus muuttuu merkittävästi kevyemmäksi.