Google julkaisi Gemma 4 12B:n, avoimen multimodaalimallin, joka on suunniteltu pyörimään tavallisella kannettavalla tietokoneella. Malli yhdistää kuvan, äänen ja tekstin samaan runkoon ilman erillistä enkooderia. Google asemoi sen perheen keskikokoiseksi jäseneksi kevyen E4B:n ja tehokkaan 26 miljardin parametrin MoE-mallin väliin. Lisenssi on avoin Apache 2.0, joten malli on vapaasti ladattavissa ja muokattavissa.
Enkooderiton arkkitehtuuri
Gemma 4 12B:n tärkein uutuus on sen arkkitehtuuri. Aiemmin multimodaaliset mallit tarvitsivat erillisen enkooderin muuntamaan kuvat ja äänen mallin ymmärtämään muotoon. Gemma 4 12B poistaa tämän välivaiheen kokonaan.
Käytännössä kuva- ja äänisyötteet virtaavat suoraan kielimallin runkoon. Tämä yksinkertaistaa käsittelyputkea ja vähentää liikkuvia osia. Yhtenäinen rakenne tekee mallista myös helpomman optimoida eri laitteille.
Mukana on ensimmäistä kertaa keskikokoisessa Gemma-mallissa natiivi äänisyöte. Malli voi siis käsitellä puhetta ja ääntä yhtä luontevasti kuin tekstiä. Tämä avaa ovia ääniohjatuille sovelluksille suoraan laitteella ilman erillistä puheentunnistusta.
Enkooderiton lähestymistapa ei ole pelkkä tekninen yksityiskohta. Se vähentää virhealttiita välivaiheita ja voi parantaa eri syötetyyppien yhteispeliä, kun kaikki kulkee saman rungon läpi. Samalla mallin koko pienenee, koska erillistä enkooderiverkkoa ei tarvita.

Suorituskyky lähellä suurta mallia
Pienestä koostaan huolimatta Gemma 4 12B yltää lähelle perheen suuremman 26 miljardin parametrin MoE-mallin tasoa vakiotesteissä. Google kertoo mallin tarjoavan vahvaa monivaiheista päättelyä ja agenttityönkulkuja.
Samalla muistijalanjälki on alle puolet suuremmasta mallista. Tämä yhdistelmä — lähes sama suorituskyky pienemmällä koolla — on mallin koko myyntiväittämä. Pienempi malli tarkoittaa myös pienempää energiankulutusta.
Latenssia pienennetään Multi-Token Prediction -tekniikalla. Niin sanotut drafter-mallit ennakoivat useita tokeneita kerralla, mikä nopeuttaa vastauksia. Käyttäjälle tämä näkyy sujuvampana vuorovaikutuksena ja lyhyempänä odotuksena.
Käytännössä tämä tarkoittaa, että kehittäjä saa lähes huippumallin kyvyt laitteelle, joka mahtuu reppuun. Raja suuren ja keskikokoisen mallin välillä kapenee entisestään. Sama suuntaus on näkynyt koko Gemma 4 -perheessä.

Agentit paikallisesti kannettavalla
Gemma 4 12B on tarpeeksi pieni pyörimään paikallisesti laitteilla, joissa on 16 gigatavua muistia. Se kattaa suuren osan nykyisistä kannettavista tietokoneista ja työasemista.
Paikallinen ajo tarkoittaa, että tekoälyagentit voivat toimia ilman pilviyhteyttä. Data pysyy laitteella, vasteajat lyhenevät eikä käyttö ole riippuvainen verkosta. Tämä on merkittävää yksityisyyden ja kustannusten kannalta.
Google korostaa nimenomaan agenttikäyttöä. Malli on viritetty monivaiheisiin tehtäviin, joissa se kutsuu työkaluja ja ketjuttaa päättelyä. Aiemmin tällainen vaati usein pilvipalvelimen ja jatkuvan verkkoyhteyden.
Rajansa silläkin on. Paikallinen malli ei korvaa suurinta pilvimallia kaikkein vaativimmissa tehtävissä, mutta se riittää yllättävän moneen arkiseen työnkulkuun. Monelle yritykselle tämä on riittävä taso herkän datan käsittelyyn.

Avoin ekosysteemi
Gemma 4 12B julkaistaan Apache 2.0 -lisenssillä, joka sallii vapaan kaupallisen käytön ja muokkauksen. Tämä on madaltanut käyttöönoton kynnystä laajalti.
Google kertoo Gemma 4 -perheen tulleen ladatuksi jo 150 miljoonaa kertaa. Yhteisö on rakentanut malleilla kaikkea puettavasta robotiikasta yritystason tietoturvaratkaisuihin. Avoin lisenssi on selvästi vauhdittanut käyttöä.
Malli on tuettu laajasti kehittäjäekosysteemissä, mikä helpottaa sen ottamista osaksi olemassa olevia työkaluja. Avoin lisenssi ja pieni koko yhdessä tekevät siitä helpon kokeiltavan myös pienissä projekteissa.
Drafter-valmius ja avoin lisenssi yhdessä tekevät mallista houkuttelevan myös tutkijoille, jotka haluavat hienosäätää sitä omiin tarpeisiinsa. Paikallinen ajo pitää myös kokeilukustannukset matalina.

Kilpailu päätelaitteiden tekoälystä
Gemma 4 12B osuu keskelle kiivasta kilpailua päätelaitteiden tekoälystä. Yhä useampi valmistaja haluaa ajaa malleja suoraan puhelimissa ja kannettavissa pilven sijaan.
Google itse on pienentänyt Gemma-perhettä aiemmin mobiililaitteille asti. Samaan aikaan kilpailijat tuovat omia kevyitä avoimia mallejaan, ja laitteistovalmistajat optimoivat siruja paikalliseen päättelyyn.
Avoin lisenssi on Googlelle strateginen valinta. Mitä useampi kehittäjä rakentaa Gemman varaan, sitä vahvemmin malli juurtuu ekosysteemiin. Avoimuus on myös vastaus suljettujen mallien pääsyrajoituksiin.
Käyttäjälle suuntaus tarkoittaa nopeampia, yksityisempiä ja halvempia tekoälysovelluksia. Gemma 4 12B on yksi konkreettinen askel kohti tekoälyä, joka asuu laitteella eikä konesalissa.

Yhteenveto
Gemma 4 12B vie tehokkaan multimodaalisen tekoälyn pois konesaleista ja tavallisen kannettavan ulottuville. Enkooderiton arkkitehtuuri, natiivi äänisyöte ja maltillinen muistintarve tekevät siitä käytännöllisen valinnan paikallisiin agentteihin.
Avoin lisenssi varmistaa, että kehittäjät pääsevät kokeilemaan mallia heti. Seuraavaksi nähdään, kuinka hyvin laitteella ajettavat agentit pärjäävät pilvimallien rinnalla arjen tehtävissä. Suunta on joka tapauksessa selvä: yhä suurempi osa tekoälystä siirtyy lähemmäs käyttäjää.
