IBM julkaisi 29. huhtikuuta Granite 4.1 -malliperheen, jonka kahdeksan miljardin parametrin malli pärjää benchmarkeissa lähes nelinkertaisesti suurempien verrokkiensa rinnalla. Perhe sisältää 3B-, 8B- ja 30B-mallit, kaikki Apache 2.0 -lisenssillä julkaistuna.
Julkaisu jatkaa IBM:n linjaa avoimista, yrityskäyttöön viritetyistä kielimalleista. Granite 4.1 keskittyy työkalukutsuihin, ohjeiden seuraamiseen, koodin generointiin ja matemaattiseen päättelyyn — ominaisuuksiin, joita IBM:n yritysasiakkaat tarvitsevat agentti- ja automaatiotyökaluja rakentaessaan. IBM Researchin virallisen julkaisun mukaan tämä on yhtiön laajin malliperhepäivitys tähän mennessä.
Tiheä arkkitehtuuri ilman MoE-temppuja
Granite 4.1 käyttää tiheää decoder-only-transformeria. Mukana ei ole mixture-of-experts -reititystä, harvaaktivisia kerroksia eikä pidennettyjä päättelyketjuja, jotka kasvattaisivat token-määriä lopputuotteessa. Mitä syötät sisään, sen malli käsittelee — ennakoitavasti, joka kerta.
Kaikki kolme kokoa jakavat saman koulutusputken ja datastrategian. Ainoa ero on koko. Tämä tekee mallien käyttäytymisestä ennakoitavaa: latenssi pysyy vakiona ja kustannukset skaalautuvat lineaarisesti. 3B-malli on tarkoitettu reunalaitteille, 8B yleiseen yrityskäyttöön ja 30B vaativampaan päättelyyn.
Kaikki saatavilla sekä base- että instruction-tuned-versioina, valinnaisella FP8-kvantisoinnilla. IBM korostaa, että mallit on julkaistu kryptografisin allekirjoituksin ja ISO-sertifioinnein — näkökohtia, joita yritysostajat odottavat lisenssipaperien rinnalla.

Viisivaiheinen koulutus 15 biljoonalla tokenilla
Mallien koulutus jakautui viiteen vaiheeseen, joissa jokaisella oli oma datajakaumansa ja oppimistavoitteensa. Vaihe yksi oli laaja: CommonCrawl 59 prosenttia, koodi 20 prosenttia ja matematiikka 7 prosenttia. Toisessa vaiheessa matematiikan osuus nousi 35 prosenttiin ja koodi 30 prosenttiin.
Vaiheissa kolme ja neljä joukkoon sekoitettiin chain-of-thought -ajatusketjuja ja korkealaatuisinta saatavilla olevaa web-sisältöä. Viides vaihe pidensi kontekstin asteittain 512 000 tokeniin saakka. Yhteensä koulutusdataa oli noin 15 biljoonaa tokenia.
Hienosäätövaiheen jälkeen IBM ajoi neljä peräkkäistä vahvistusoppimisvaihetta. Ensimmäinen koulutti mallia rinnakkain yhdeksässä alueessa: matematiikka, tiede, looginen päättely, ohjeiden seuraaminen, jäsennelty tuotos, text-to-SQL, ajallinen päättely, yleiskeskustelu ja in-context learning. Logiikka on yksinkertainen: kun gradientteja päivitetään kaikilla alueilla samanaikaisesti, malli ei unohda aiempia taitoja oppiessaan uusia.

Benchmark-luvut yllättävät kompaktilta mallilta
IBM:n raportoimat luvut kertovat, että 8B Granite saavuttaa IFEval-ohjeenseuranta-arviossa 87,1 pistettä ja 30B-malli 89,7. GSM8K-matematiikkatestissä 8B saa 92,5 ja 30B 94,2. Lukuja kannattaa peilata aiempaan Granite 4.0 H-Small -malliin, jonka 32 miljardista parametrista 9 miljardia oli aktiivisia kerrallaan.
Työkalukutsujen BFCL V3 -bench raportoi 8B:lle 68,3 ja 30B:lle 73,7. Koodin EvalPlus-tulokset ovat 80,2 ja 82,7, ja matemaattisen DeepMind-Math-arvion luvut 80,1 ja 81,9. Real-world-keskustelun ArenaHard-tulos 30B:llä on 71,0 ja MMLU-Pro 64,1.
Numerot eivät yksinään tee mallista voittajaa. Niiden merkitys on siinä, että tiheällä arkkitehtuurilla ja avoimella lisenssillä 8B kykenee vaihtamaan paikkaa moninkertaisesti raskaamman MoE-mallin kanssa monessa tuotantokäytössä, jossa latenssi ja kustannukset ratkaisevat enemmän kuin huippunopeus yksittäisellä testillä.

512 000 tokenin konteksti vaiheittain
Kontekstin laajennus eteni IBM:llä kolmessa portaassa: ensin 32K, sitten 128K ja lopulta 512K tokenia. Jokainen porras käytti samaa datasekoitusta kuin vaihe neljä paitsi viimeinen, jossa 8B- ja 30B-mallien kohdalla siirryttiin 80 prosenttia kirjoja ja 20 prosenttia koodirepoja sisältävään dataan.
Kirjat ja pitkät koodirepot olivat luonnollinen valinta: niiden rakenne pysyy koherenttina kymmenien tuhansien tokenien yli, toisin kuin web-sivustojen pirstaleinen aineisto. Tämä on käytännön ratkaisu pitkien dokumenttien analysointiin agenttipinoissa, joissa malli joutuu pitämään lankaa hallussa pitkän työnkulun ajan.
Käyttöönotossa nopein tie on Ollama-pulli. 3B pyörii useimmilla kuluttajakoneilla, 8B vaatii enemmän muistia ja 30B kaipaa GPU-konetta. Hugging Facelta kaikki kolme kokoa löytyvät ibm-granite-organisaation alta. Tuotantokäyttöön IBM tukee vLLM:ää ja Transformers-kirjastoa ja tarjoaa mallit myös oman API-päätepisteensä takaa.

Yhteenveto
Granite 4.1 on selkeä signaali siitä, että pienempi tiheä malli voi haastaa moninkertaisesti suuremman MoE-mallin, kun koulutusprosessi on huolellinen ja tavoitteet täsmällisiä. Apache 2.0 -lisenssi tekee kaupallisesta käytöstä juridisesti suoraviivaisen.
IBM:n malliperhe on tarkoitettu yritysasiakkaille, jotka tarvitsevat ennakoitavaa latenssia, läpinäkyvää koulutusprosessia ja tinkimättömiä lisenssiehtoja. Granite 4.1 vastaa juuri tähän tilaukseen ja antaa yrityksille kotimaassa hallinnoidun mallin, jonka voi pyörittää myös omilla palvelimilla.
