Alibaban Qwen-tiimi julkaisi kolme erillistä perusmallia robotiikkaan yhteisnimellä Qwen-RobotSuite. Mukana ovat RobotManip, RobotWorld ja RobotNav. Jokainen rakentuu Qwenin näkö-kielimallin varaan ja ratkaisee oman robotiikan ongelman.

Julkistus erottuu siitä, ettei kyse ole yhdestä mallista vaan kolmesta itsenäisestä. Kaksi niistä, RobotManip ja RobotNav, ilmestyivät avoimina GitHub-repositorioineen. MarkTechPostin mukaan suite asettuu fyysisen tekoälyn ytimeen: kielimallit siirtyvät ruudulta robotin raajoihin.

Kolme mallia, kolme robotiikan ongelmaa


RobotManip on manipulaatioon tarkoitettu näkö-kieli-toiminta-malli (VLA). Se rakentuu Qwen3.5-4B-mallin päälle. Malli muuttaa robottidatan yhdeksi 80-ulotteiseksi toimintavektoriksi, jolloin opetusdata skaalautuu eri robottien välillä.

RobotWorld on kieliohjattu videomaailmamalli. Se käyttää 60-kerroksista MMDiT-arkkitehtuuria ja jäädytettyä Qwen2.5-VL-enkooderia. Malli ennustaa tulevaa videokuvaa luonnollisen kielen ohjaamana.

RobotNav on navigointimalli, joka rakentuu Qwen3-VL:n päälle ja on saatavilla 2B-, 4B- ja 8B-kokoina. Se mallintaa monitehtävänavigoinnin havaintokontekstin käsittelynä.



Kolme robotiikkajärjestelmää rinnakkain tutkimuslaboratoriossa


Manipulaatio ja maailmamallit kärkeen


Qwenin mukaan RobotManip nousi ensimmäiseksi RoboChallenge Table30-v1 -vertailussa. Malli yhdistää erilaiset robottidatat yhteen toimintaesitykseen ja käyttää DiT-pohjaista flow-matching-päätä jatkuvien liikkeiden tuottamiseen.

RobotWorld koulutettiin 8,6 miljoonalla video-tekstiparilla. Se sijoittui ensimmäiseksi sekä EWMBench- että DreamGen Bench -vertailuissa. Mallia ei julkaistu avoimena koodina vaan tutkimuspaperina.

Maailmamallit ovat nousseet robotiikan keskeiseksi rakennuspalaksi. Niiden avulla robotti voi simuloida toimintansa seurauksia ennen kuin se liikuttaa raajojaan. Tämä vähentää kalliin fyysisen harjoittelun tarvetta.



Robottikäsi tarttuu pieniin esineisiin pöydällä tarkasti


Navigointi ja avoin koodi


RobotNav saavutti 76,5 prosentin onnistumisasteen VLN-CE RxR -navigointivertailussa. Malli tuottaa kahdeksan reittipistettä ja tarjoaa säädettävän token-budjetin, jolla laskentaa voi rajata tehtävän mukaan.

RobotManip ja RobotNav julkaistiin julkisilla GitHub-repositorioilla. RobotWorld jäi toistaiseksi pelkän blogikirjoituksen ja paperin varaan. Avoin julkaisu antaa tutkijoille mahdollisuuden rakentaa mallien päälle.

Suite koulutettiin mittavalla datalla: RobotManipin pohjana oli noin 38 100 tuntia dataa ja RobotNavin 15,6 miljoonaa näytettä. Mittakaava kertoo, kuinka paljon dataa fyysisen tekoälyn opettaminen vaatii.



Autonominen liikkuva robotti navigoi sisätilan käytävällä


Mitä tämä tarkoittaa robotiikalle


Qwen-RobotSuite on osa laajempaa siirtymää kohti fyysistä tekoälyä. Samalla viikolla myös Genesis AI esitteli Eno-robottinsa, ja NVIDIA on tuonut omia agenttimallejaan. Kilpailu robotiikan perusmalleista kiihtyy.

Erona moneen kilpailijaan Qwen rakentaa kaiken saman näkö-kielimallin varaan. Yhteinen pohja helpottaa mallien yhdistämistä: manipulaatio, ennustaminen ja navigointi puhuvat samaa kieltä.

Avoimet repot laskevat kynnystä robotiikan tutkimukseen. Kun kaksi kolmesta mallista on ladattavissa, pienemmätkin tiimit pääsevät kokeilemaan VLA-malleja ilman omaa massiivista koulutusputkea.



Robotiikkainsinöörit seuraavat robottia teollisuuslaboratoriossa


Yhteenveto

Qwen-RobotSuite kokoaa kolme robotiikan perusmallia saman näkö-kielipohjan ympärille ja vie tekoälyn ruudulta fyysiseen maailmaan. RobotManip ja RobotNav nousivat vertailujensa kärkeen, ja molemmat ovat avoimia. Julkistus vahvistaa, että fyysinen tekoäly on noussut alan seuraavaksi kilpakentäksi.