Google on rakentanut computer use -työkalun suoraan Gemini 3.5 Flash -malliin. DeepMind-tiimin mukaan kyseessä on yhtiön tähän asti paras suoritus agenttipohjaisissa tietokoneen käyttötehtävissä. Aiemmin vastaava kyky toimi vain erillisenä Gemini 2.5 -mallina, joka piti ottaa käyttöön omana palasenaan. Nyt se kuuluu yhtiön keskeiseen Flash-malliin sisäänrakennettuna työkaluna.

Computer use siirtyi päämalliin


Muutos on käytännössä merkittävä. Gemini 3.5 Flash on Googlen nopea ja edullinen yleismalli, jota kehittäjät käyttävät laajasti. Kun computer use on siinä sisäänrakennettuna, agenttien rakentaminen ei enää vaadi erillistä erikoismallia.

Gemini osasi jo ennestään kutsua funktioita ja käyttää sisäänrakennettuja työkaluja, kuten Google-hakua ja Maps-pohjaistusta. Computer use täydentää valikoimaa kyvyllä havainnoida ruutua ja toimia sen perusteella.

Yhdistelmä tarkoittaa, että sama malli voi sekä päätellä tehtävän vaiheet että suorittaa ne käyttöliittymässä. Kehittäjän ei tarvitse ketjuttaa useaa eri mallia peräkkäin. Tämä yksinkertaistaa arkkitehtuuria ja vähentää virhepisteitä.

Computer use eroaa tavallisesta rajapintaintegraatiosta. Sen sijaan, että agentti kutsuisi valmista ohjelmointirajapintaa, se tulkitsee ruudun kuvana ja toimii sen perusteella. Näin se pärjää myös järjestelmissä, joihin ei ole rajapintaa lainkaan.

Kehittäjälle tämä tuo myös kustannussäästöä. Yhden mallin ylläpito on yksinkertaisempaa kuin erillisen computer use -mallin ja yleismallin rinnakkainen käyttö.



Hehkuva neuroydin, johon pienempi moduuli sulautuu, kuvaa ominaisuuden integrointia paamalliin


Mihin agentit nyt pystyvät


Computer use antaa agentille kyvyn nähdä, päätellä ja toimia selaimessa, mobiilissa ja työpöydällä. Agentti tulkitsee näkymän, valitsee toiminnon ja vie sen läpi samaan tapaan kuin ihminen klikkaisi ja kirjoittaisi.

Google korostaa erityisesti pitkäkestoisia ja yritystason tehtäviä. Esimerkkeinä mainitaan jatkuva ohjelmistotestaus ja tietotyö ammattisovellusten välillä. Nämä ovat työnkulkuja, joissa agentin pitää selvitä useasta vaiheesta ilman jatkuvaa ohjausta.

Esittelyssä 3.5 Flash käytti computer usea analysoidakseen Gemini-sovelluksen ja palauttaakseen luokitellun listan sen ominaisuuksista. Käytännössä agentti siis selasi sovellusta itsenäisesti ja kokosi havaintonsa.

Kehittäjät ja yritykset pääsevät rakentamaan tällaisia agentteja Gemini-rajapinnan ja Gemini Enterprise Agent Platformin kautta. Kohderyhmänä ovat selvästi automaatiota etsivät organisaatiot.

Käytännön hyöty näkyy juuri vanhoissa järjestelmissä. Moni yritys käyttää sovelluksia, joihin ei ole modernia rajapintaa, ja niiden automatisointi on perinteisesti vaatinut hauraita skriptejä. Näkevä agentti voi toimia samalla käyttöliittymällä kuin työntekijä.



Kannettava, alypuhelin ja tyopoytanaytto poydalla, valojaljet yhdistavat ruudut agentin ohjaamina


Suojaukset kehotinjektiota vastaan


Selainta ja sovelluksia ohjaava agentti on altis kehotinjektiolle (prompt injection), jossa haitallinen sisältö yrittää kaapata agentin toiminnan. Google kertoo kouluttaneensa 3.5 Flashin computer usea kohdennetulla vastakkainasettelukoulutuksella näiden riskien pienentämiseksi.

Lisäksi yhtiö julkaisee kaksi valinnaista yritystason suojausjärjestelmää. Ensimmäinen vaatii käyttäjän nimenomaisen vahvistuksen arkaluontoisiin tai peruuttamattomiin toimiin. Toinen pysäyttää tehtävän automaattisesti, jos epäsuora kehotinjektio havaitaan.

Google suosittaa silti syvyyspuolustusta. Suojaukset kannattaa yhdistää eristettyyn hiekkalaatikkoon, ihmisen tekemään tarkistukseen ja tiukkaan käyttöoikeuksien hallintaan. Yksittäinen suojakeino ei riitä, kun agentti toimii oikeissa ympäristöissä.

Riski ei ole teoreettinen. Jos agentti lukee verkkosivun, joka sisältää piilotetun ohjeen, se saattaa erehtyä noudattamaan sitä oikeiden tehtävien sijaan. Siksi vahvistuspyyntö ennen peruuttamattomia toimia on olennainen suojakeino.

Yritystason suojaukset ovat toistaiseksi valinnaisia, joten vastuu niiden käyttöönotosta jää kehittäjälle. Tämä on tyypillistä uudelle teknologialle: ominaisuus julkaistaan ennen kuin alan parhaat käytännöt ovat ehtineet vakiintua.



Digitaalinen kilpi torjuu haitallisen datapaketin tietovirrasta, suojaus kehotinjektiota vastaan


Käyttöönotto kehittäjille


Computer use on käytettävissä Gemini 3.5 Flashissa heti. Kehittäjät voivat testata kykyä Browserbasen isännöimässä demoympäristössä ennen oman toteutuksen rakentamista.

Varsinaiseen rakentamiseen Google tarjoaa referenssitoteutuksen ja dokumentaation Gemini-rajapinnan ja Enterprise Agent Platformin kautta. Tämä madaltaa kynnystä, sillä kehittäjän ei tarvitse koota agenttisilmukkaa tyhjästä.

Mallin nopeus ja edullisuus ovat tässä olennaisia. Jos agentti suorittaa kymmeniä tai satoja vaiheita yhtä tehtävää kohden, päättelyn hinta ja viive ratkaisevat, onko ratkaisu käytännöllinen tuotannossa.

Google ei ole yksin tällä alueella. OpenAI ja Anthropic ovat esitelleet omat tietokoneen käyttöön kykenevät agenttinsa, ja kilpailu kohdistuu nyt luotettavuuteen ja hintaan. Flash-mallin edullisuus on Googlen valttikortti tässä asetelmassa.



Kehittajan naytto, jossa agenttien hallintapaneeli ja sumennettua koodia toimistossa


Yhteenveto


Computer use osana Gemini 3.5 Flashia siirtää agenttipohjaisen automaation lähemmäs valtavirtaa. Sama edullinen malli osaa nyt sekä suunnitella tehtävän että toimia käyttöliittymässä selaimessa, mobiilissa ja työpöydällä.

Suurin kysymys on luotettavuus oikeissa ympäristöissä. Googlen lisäämät kehotinjektiosuojaukset ja vahvistuskäytännöt ovat tarpeen, mutta vasta laaja käyttö näyttää, kuinka hyvin agentit selviävät pitkistä tehtävistä.

Suunta on joka tapauksessa selvä. Agentit, jotka osaavat käyttää ohjelmistoja itsenäisesti, siirtyvät vähitellen kokeiluista osaksi yritysten arkea.