Google julkaisi DiffusionGemman, kokeellisen avoimen mallin, joka lähestyy tekstintuottoa uudella tavalla. Malli ei tuota sanoja yksi kerrallaan vaan kokonaisina lohkoina. Lopputulos on jopa nelinkertainen nopeus tehokkailla näytönohjaimilla. Painot julkaistiin Apache 2.0 -lisenssillä Hugging Facessa heti julkistuksen yhteydessä.
Kyseessä on 26 miljardin parametrin Mixture of Experts (MoE) -malli. Se rakentuu Gemma 4 -malliperheen ja Gemini Diffusion -tutkimuksen päälle. Googlen blogin mukaan tavoitteena ovat nopeutta vaativat ja vuorovaikutteiset paikalliset työnkulut. Autoregressiiviset Gemma 4 -mallit pysyvät yhä tuotannon laatustandardina.
Julkaisu jatkaa Googlen linjaa tuoda Gemma-malleja avoimesti kehittäjien ulottuville. DiffusionGemma ei kuitenkaan ole tavallinen versiopäivitys. Se kokeilee aivan eri tapaa muodostaa tekstiä kuin valtavirran kielimallit. Juuri tämä tekee siitä kiinnostavan koko alalle.
Tekstidiffuusio korvaa peräkkäisen päättelyn
Tavalliset suuret kielimallit eli LLM:t tuottavat tekstiä token kerrallaan. Jokainen uusi sana riippuu kaikista edellisistä. Tämä tekee prosessista peräkkäisen ja sitoo nopeuden muistin kaistanleveyteen. Pitkä vastaus syntyy siis hitaasti, merkki merkiltä.
DiffusionGemma rikkoo tämän kaavan tekstidiffuusiolla. Siinä kokonainen lohko tekstiä muodostuu samanaikaisesti. Malli aloittaa karkeasta luonnoksesta ja tarkentaa sitä vaiheittain selkeäksi tekstiksi. Tekniikka on tuttu kuvageneraattoreista, mutta nyt se on sovitettu kieleen.
Google vertaa eroa kirjoituskoneeseen ja painokoneeseen. Kirjoituskone lyö yhden kirjaimen kerrallaan. Painokone sen sijaan leimaa koko sivun yhdellä painalluksella. Vertaus kuvaa hyvin, miksi rinnakkainen tuotto on niin paljon nopeampaa.
Käytännössä malli luonnostelee jopa 256 tokenin kappaleen kerralla. Uusi diffuusiopää on suunniteltu maksimoimaan tuottonopeus. Pohjana on yhä Gemma 4:n vahva suorituskyky parametria kohden. Näin nopeus ei synny laadusta tinkimällä, vaan laskennan uudelleenjärjestelyllä.

Nopeus syntyy laskennan uudelleenjärjestelystä
Perinteisessä mallissa pullonkaulana on muistin kaistanleveys. DiffusionGemma siirtää pullonkaulan laskentaan. Sama laitteisto saa kerralla suuremman työmäärän käsiteltäväkseen. Näin näytönohjaimen teho saadaan hyödynnettyä täydemmin.
Google ilmoittaa yli 1000 tokenin sekuntinopeuden yhdellä NVIDIA H100 -näytönohjaimella. Kuluttajatason GeForce RTX 5090 yltää yli 700 tokeniin sekunnissa. Luvut ovat noin nelinkertaisia autoregressiivisiin malleihin verrattuna. Ero tuntuu erityisesti pitkissä vastauksissa.
Malli tukee NVFP4-formaattia, joka on neljän bitin liukuluku. Se kiihdyttää laskentaa lähes ilman tarkkuuden menetystä. Google optimoi mallin NVIDIAn laitteistolle Hopper- ja Blackwell-arkkitehtuureja myöten.
Optimoinnit ulottuvat kuluttajalaitteisiin asti. Google julkaisi kvantisoidut versiot GeForce RTX 5090- ja 4090-korteille. Myös DGX Spark ja DGX Station saavat oman paikallisen käyttöprofiilinsa. Tavoitteena on saada malli pyörimään myös työpöydän äärellä.
Google teki nopeustyön yhteistyössä NVIDIAn kanssa koko laitteistopinon osalta. vLLM-integraatiota tukee lisäksi Red Hat. Näin malli saadaan palveltua tehokkaasti monenlaisissa ympäristöissä. Nopeus ei jää vain laboratorion lukemaksi, vaan siirtyy käytännön käyttöön.

Kenelle malli on tarkoitettu
DiffusionGemma on suunnattu ennen kaikkea tutkijoille ja kehittäjille. Sopivia käyttökohteita ovat rivinsisäinen muokkaus, nopea iterointi ja epälineaariset tekstirakenteet. Nopeus ratkaisee erityisesti paikallisissa ja vuorovaikutteisissa työnkuluissa. Reaaliaikainen tuntuma on tärkeämpää kuin viimeistelty lopputulos.
Mallin voi ottaa käyttöön tutuilla työkaluilla. Google mainitsee MLX:n, vLLM:n ja Hugging Face Transformersin. Virallinen tuki llama.cpp:lle on tulossa pian. Yhteensopivuus laajaan työkaluvalikoimaan madaltaa kokeilun kynnystä.
Hienosäätöä varten Google julkaisi opetusohjelman Hackable Diffusion -työkalupakilla. Myös Unsloth ja NVIDIA NeMo soveltuvat mallin sovittamiseen. Painot ovat ladattavissa heti avoimella Apache 2.0 -lisenssillä. Kehittäjät voivat siis rakentaa mallin päälle ilman lisenssirajoituksia.
Tuotantokäytössä Google suosittelee yhä autoregressiivisiä Gemma 4 -malleja. Niiden vahvuus on tasainen ja korkea laatu. DiffusionGemma puolestaan loistaa tilanteissa, joissa vasteaika ratkaisee. Mallien roolit täydentävät siis toisiaan saman perheen sisällä.

Yhteenveto
DiffusionGemma osoittaa, että tekstidiffuusio voi haastaa peräkkäisen tekstintuoton. Nelinkertainen nopeus avaa oven reaaliaikaisemmille paikallisille sovelluksille. Malli on yhä kokeellinen, mutta avoin lisenssi antaa kehittäjille vapaat kädet jatkokehitykseen. Se on myös merkki siitä, että suuret laboratoriot tutkivat vakavasti vaihtoehtoja perinteiselle token kerrallaan -tuotolle.
Google pitää autoregressiiviset Gemma 4 -mallit edelleen tuotannon perustana. DiffusionGemma on selkeästi suunnattu nopeutta vaativaan tutkimukseen ja kokeiluun. Suunta kertoo, että nopeus on nousemassa laadun rinnalle kilpailtavaksi mittariksi.
Avoin julkaisu antaa tutkijoille mahdollisuuden tarttua tekniikkaan heti. Tekstidiffuusio on yhä nuori suuntaus, ja sen rajat hakevat vielä muotoaan. Jos lähestymistapa kypsyy, se voi muuttaa tapaa, jolla paikalliset kielimallit rakennetaan. Toistaiseksi DiffusionGemma on ennen kaikkea kiinnostava kurkistus tähän suuntaan.
