IBM Granite 4.1: avoin malliperhe haastaa isommat

IBM julkaisi 29. huhtikuuta Granite 4.1 -malliperheen, jonka kahdeksan miljardin parametrin malli pärjää benchmarkeissa lähes nelinkertaisesti suurempien verrokkiensa rinnalla. Perhe sisältää 3B-, 8B- ja 30B-mallit, kaikki Apache 2.0 -lisenssillä julkaistuna.

Julkaisu jatkaa IBM:n linjaa avoimista, yrityskäyttöön viritetyistä kielimalleista. Granite 4.1 keskittyy työkalukutsuihin, ohjeiden seuraamiseen, koodin generointiin ja matemaattiseen päättelyyn — ominaisuuksiin, joita IBM:n yritysasiakkaat tarvitsevat agentti- ja automaatiotyökaluja rakentaessaan. IBM Researchin virallisen julkaisun mukaan tämä on yhtiön laajin malliperhepäivitys tähän mennessä.

Tiheä arkkitehtuuri ilman MoE-temppuja

Granite 4.1 käyttää tiheää decoder-only-transformeria. Mukana ei ole mixture-of-experts -reititystä, harvaaktivisia kerroksia eikä pidennettyjä päättelyketjuja, jotka kasvattaisivat token-määriä lopputuotteessa. Mitä syötät sisään, sen malli käsittelee — ennakoitavasti, joka kerta.

Kaikki kolme kokoa jakavat saman koulutusputken ja datastrategian. Ainoa ero on koko. Tämä tekee mallien käyttäytymisestä ennakoitavaa: latenssi pysyy vakiona ja kustannukset skaalautuvat lineaarisesti. 3B-malli on tarkoitettu reunalaitteille, 8B yleiseen yrityskäyttöön ja 30B vaativampaan päättelyyn.

Kaikki saatavilla sekä base- että instruction-tuned-versioina, valinnaisella FP8-kvantisoinnilla. IBM korostaa, että mallit on julkaistu kryptografisin allekirjoituksin ja ISO-sertifioinnein — näkökohtia, joita yritysostajat odottavat lisenssipaperien rinnalla.

Tiheä konesalipalvelinrivi sinisessä valaistuksessa, kuvituskuva tiheälle malliarkkitehtuurille.

Viisivaiheinen koulutus 15 biljoonalla tokenilla

Mallien koulutus jakautui viiteen vaiheeseen, joissa jokaisella oli oma datajakaumansa ja oppimistavoitteensa. Vaihe yksi oli laaja: CommonCrawl 59 prosenttia, koodi 20 prosenttia ja matematiikka 7 prosenttia. Toisessa vaiheessa matematiikan osuus nousi 35 prosenttiin ja koodi 30 prosenttiin.

Vaiheissa kolme ja neljä joukkoon sekoitettiin chain-of-thought -ajatusketjuja ja korkealaatuisinta saatavilla olevaa web-sisältöä. Viides vaihe pidensi kontekstin asteittain 512 000 tokeniin saakka. Yhteensä koulutusdataa oli noin 15 biljoonaa tokenia.

Hienosäätövaiheen jälkeen IBM ajoi neljä peräkkäistä vahvistusoppimisvaihetta. Ensimmäinen koulutti mallia rinnakkain yhdeksässä alueessa: matematiikka, tiede, looginen päättely, ohjeiden seuraaminen, jäsennelty tuotos, text-to-SQL, ajallinen päättely, yleiskeskustelu ja in-context learning. Logiikka on yksinkertainen: kun gradientteja päivitetään kaikilla alueilla samanaikaisesti, malli ei unohda aiempia taitoja oppiessaan uusia.

Viisikerroksinen datavirta-kuvitus iteratiivisille koulutusvaiheille.

Benchmark-luvut yllättävät kompaktilta mallilta

IBM:n raportoimat luvut kertovat, että 8B Granite saavuttaa IFEval-ohjeenseuranta-arviossa 87,1 pistettä ja 30B-malli 89,7. GSM8K-matematiikkatestissä 8B saa 92,5 ja 30B 94,2. Lukuja kannattaa peilata aiempaan Granite 4.0 H-Small -malliin, jonka 32 miljardista parametrista 9 miljardia oli aktiivisia kerrallaan.

Työkalukutsujen BFCL V3 -bench raportoi 8B:lle 68,3 ja 30B:lle 73,7. Koodin EvalPlus-tulokset ovat 80,2 ja 82,7, ja matemaattisen DeepMind-Math-arvion luvut 80,1 ja 81,9. Real-world-keskustelun ArenaHard-tulos 30B:llä on 71,0 ja MMLU-Pro 64,1.

Numerot eivät yksinään tee mallista voittajaa. Niiden merkitys on siinä, että tiheällä arkkitehtuurilla ja avoimella lisenssillä 8B kykenee vaihtamaan paikkaa moninkertaisesti raskaamman MoE-mallin kanssa monessa tuotantokäytössä, jossa latenssi ja kustannukset ratkaisevat enemmän kuin huippunopeus yksittäisellä testillä.

Abstrakti suorituskykymittari pylväskaavioineen kuvaa benchmark-tuloksia.

512 000 tokenin konteksti vaiheittain

Kontekstin laajennus eteni IBM:llä kolmessa portaassa: ensin 32K, sitten 128K ja lopulta 512K tokenia. Jokainen porras käytti samaa datasekoitusta kuin vaihe neljä paitsi viimeinen, jossa 8B- ja 30B-mallien kohdalla siirryttiin 80 prosenttia kirjoja ja 20 prosenttia koodirepoja sisältävään dataan.

Kirjat ja pitkät koodirepot olivat luonnollinen valinta: niiden rakenne pysyy koherenttina kymmenien tuhansien tokenien yli, toisin kuin web-sivustojen pirstaleinen aineisto. Tämä on käytännön ratkaisu pitkien dokumenttien analysointiin agenttipinoissa, joissa malli joutuu pitämään lankaa hallussa pitkän työnkulun ajan.

Käyttöönotossa nopein tie on Ollama-pulli. 3B pyörii useimmilla kuluttajakoneilla, 8B vaatii enemmän muistia ja 30B kaipaa GPU-konetta. Hugging Facelta kaikki kolme kokoa löytyvät ibm-granite-organisaation alta. Tuotantokäyttöön IBM tukee vLLM:ää ja Transformers-kirjastoa ja tarjoaa mallit myös oman API-päätepisteensä takaa.

Pino kirjoja ja avoin kannettava koodieditorilla — pitkän kontekstin laajennusta visuaalisesti.

Yhteenveto

Granite 4.1 on selkeä signaali siitä, että pienempi tiheä malli voi haastaa moninkertaisesti suuremman MoE-mallin, kun koulutusprosessi on huolellinen ja tavoitteet täsmällisiä. Apache 2.0 -lisenssi tekee kaupallisesta käytöstä juridisesti suoraviivaisen.

IBM:n malliperhe on tarkoitettu yritysasiakkaille, jotka tarvitsevat ennakoitavaa latenssia, läpinäkyvää koulutusprosessia ja tinkimättömiä lisenssiehtoja. Granite 4.1 vastaa juuri tähän tilaukseen ja antaa yrityksille kotimaassa hallinnoidun mallin, jonka voi pyörittää myös omilla palvelimilla.

IBM Granite 4.1 haastaa nelinkertaisesti suuremmat mallit

Tiheä arkkitehtuuri ilman MoE-temppuja

Viisivaiheinen koulutus 15 biljoonalla tokenilla

Benchmark-luvut yllättävät kompaktilta mallilta

512 000 tokenin konteksti vaiheittain

Yhteenveto

Aiheeseen liittyvät artikkelit

OpenAI julkaisi GPT-5.6:n: Sol, Terra ja Luna saataville

Mistral Robostral Navigate ohjaa robottia yhdellä kameralla

OpenAI julkaisi GPT-Liven: ChatGPT puhuu ja kuuntelee