Google julkaisi torstaina uudet Gemma 4 -tarkistuspisteet, jotka on optimoitu quantization-aware trainingilla (QAT). Tekniikka pienentää mallin muistintarvetta tuntuvasti ja parantaa suorituskykyä laitteen omalla raudalla.

Näkyvin tulos on muistijalanjälki. Mobiiliformaatissa Gemma 4 E2B -mallin tarve kutistui yhteen gigatavuun. Aiemmin palvelinta vaatinut malliluokka mahtuu nyt tavalliseen puhelimeen ja kuluttajan näytönohjaimeen.


Mitä quantization-aware training tarkoittaa


Kvantisointi pakkaa mallin painot pienempään tarkkuuteen, esimerkiksi neljään bittiin. Pakkaaminen säästää muistia mutta heikentää yleensä mallin laatua.

QAT puuttuu juuri tähän. Malli totutetaan simuloituun kvantisointiin jo koulutusvaiheessa, jolloin se oppii toimimaan pakatussa muodossa. Näin laatu säilyy lähellä alkuperäistä, vaikka koko romahtaa.

Google julkaisi tarkistuspisteet suositulle Q4_0-formaatille sekä uudelle, erityisesti mobiilikäyttöön suunnitellulle kvantisointiformaatille. Yhdessä ne leikkaavat muistintarvetta menettämättä Gemma 4:n odotettua suorituskykyä.



Suuri datavirta pakkautuu pieneksi tiiviiksi hehkuvaksi kuutioksi sinisessä valossa


Gigatavun muistijalanjälki avaa puhelimet


Yhden gigatavun raja on käytännön kannalta merkittävä. Sen alle mahtuva malli pyörii puhelimessa, kannettavassa ja kuluttajan näytönohjaimessa ilman pilviyhteyttä.

Paikallinen ajo tuo etuja, joita pilvimalli ei tarjoa. Data pysyy laitteessa, vasteaika lyhenee eikä käyttö vaadi jatkuvaa verkkoyhteyttä. Yksityisyyttä vaativat sovellukset hyötyvät tästä eniten.

Google tarjoaa kevyen LiteRT-LM-ajoympäristön reunalaitteille ja Transformers.js-tuen suoraan selaimeen. Sama malli voidaan siis ajaa niin puhelimessa kuin verkkosivulla.



Älypuhelin pöydällä ajaa paikallista tekoälyavustajaa ilman verkkoyhteyttä


Laaja työkalutuki kehittäjille


Google julkaisi painot Hugging Facessa heti saataville. GGUF-muoto on valmis llama.cpp:lle ja pakatut tensorit vLLM:lle.

Työpöydällä mallit saa käyntiin tutuilla käyttöliittymillä, kuten llama.cpp, Ollama ja LM Studio. Suuremmat mallit palvelevat tehokkaasti SGLang ja vLLM, ja Apple Siliconille on optimoitu MLX-tuki.

Hienosäätöä varten painot voi virittää suoraan Hugging Face Transformersilla ja Unslothilla. Kattava työkaluverkosto madaltaa kynnystä viedä mallit tuotantoon erilaisissa ympäristöissä.



Kehittäjän työpiste, kannettavalla hehkuvia hallintapaneeleita ja terminaaleja


Osa nopeasti laajenevaa Gemma 4 -perhettä


QAT-julkaisu jatkaa Gemma 4:n tiivistä kehitystahtia. Malliperhe julkaistiin kaksi kuukautta sitten, ja sen jälkeen Google on laajentanut sitä useaan otteeseen.

Ensin yhtiö toi Multi-Token Predictionin (MTP) nopeuttamaan päättelyä. Muutama päivä sitten ilmestyi 12 miljardin parametrin malli, joka täyttää aukon E4B- ja 26B-MoE-mallien välissä.

QAT-tarkistuspisteet asettuvat tähän jatkumoon. Ne eivät tuo uutta arkkitehtuuria vaan tekevät olemassa olevista malleista saavutettavampia laajemmalle laitejoukolle.



Hehkuvia geometrisia mallihahmoja kasvavassa rivissä tummalla studiopinnalla


Yhteenveto


Gemma 4:n QAT-versiot vievät tehokkaat avoimet mallit pois palvelinsaleista kuluttajan laitteisiin. Gigatavun muistijalanjälki ja laaja työkalutuki tekevät paikallisesta ajosta varteenotettavan vaihtoehdon.

Google asemoi Gemma 4:n kilpailussa, jossa mallin koko ratkaisee, missä sitä voi käyttää. Mitä pienempään tilaan huippumalli mahtuu, sitä useammassa paikassa se toimii.