Qwen-RobotSuite: kolme perusmallia robotiikkaan

Alibaban Qwen-tiimi julkaisi kolme erillistä perusmallia robotiikkaan yhteisnimellä Qwen-RobotSuite. Mukana ovat RobotManip, RobotWorld ja RobotNav. Jokainen rakentuu Qwenin näkö-kielimallin varaan ja ratkaisee oman robotiikan ongelman.

Julkistus erottuu siitä, ettei kyse ole yhdestä mallista vaan kolmesta itsenäisestä. Kaksi niistä, RobotManip ja RobotNav, ilmestyivät avoimina GitHub-repositorioineen. MarkTechPostin mukaan suite asettuu fyysisen tekoälyn ytimeen: kielimallit siirtyvät ruudulta robotin raajoihin.

Kolme mallia, kolme robotiikan ongelmaa

RobotManip on manipulaatioon tarkoitettu näkö-kieli-toiminta-malli (VLA). Se rakentuu Qwen3.5-4B-mallin päälle. Malli muuttaa robottidatan yhdeksi 80-ulotteiseksi toimintavektoriksi, jolloin opetusdata skaalautuu eri robottien välillä.

RobotWorld on kieliohjattu videomaailmamalli. Se käyttää 60-kerroksista MMDiT-arkkitehtuuria ja jäädytettyä Qwen2.5-VL-enkooderia. Malli ennustaa tulevaa videokuvaa luonnollisen kielen ohjaamana.

RobotNav on navigointimalli, joka rakentuu Qwen3-VL:n päälle ja on saatavilla 2B-, 4B- ja 8B-kokoina. Se mallintaa monitehtävänavigoinnin havaintokontekstin käsittelynä.

Kolme robotiikkajärjestelmää rinnakkain tutkimuslaboratoriossa

Manipulaatio ja maailmamallit kärkeen

Qwenin mukaan RobotManip nousi ensimmäiseksi RoboChallenge Table30-v1 -vertailussa. Malli yhdistää erilaiset robottidatat yhteen toimintaesitykseen ja käyttää DiT-pohjaista flow-matching-päätä jatkuvien liikkeiden tuottamiseen.

RobotWorld koulutettiin 8,6 miljoonalla video-tekstiparilla. Se sijoittui ensimmäiseksi sekä EWMBench- että DreamGen Bench -vertailuissa. Mallia ei julkaistu avoimena koodina vaan tutkimuspaperina.

Maailmamallit ovat nousseet robotiikan keskeiseksi rakennuspalaksi. Niiden avulla robotti voi simuloida toimintansa seurauksia ennen kuin se liikuttaa raajojaan. Tämä vähentää kalliin fyysisen harjoittelun tarvetta.

Robottikäsi tarttuu pieniin esineisiin pöydällä tarkasti

Navigointi ja avoin koodi

RobotNav saavutti 76,5 prosentin onnistumisasteen VLN-CE RxR -navigointivertailussa. Malli tuottaa kahdeksan reittipistettä ja tarjoaa säädettävän token-budjetin, jolla laskentaa voi rajata tehtävän mukaan.

RobotManip ja RobotNav julkaistiin julkisilla GitHub-repositorioilla. RobotWorld jäi toistaiseksi pelkän blogikirjoituksen ja paperin varaan. Avoin julkaisu antaa tutkijoille mahdollisuuden rakentaa mallien päälle.

Suite koulutettiin mittavalla datalla: RobotManipin pohjana oli noin 38 100 tuntia dataa ja RobotNavin 15,6 miljoonaa näytettä. Mittakaava kertoo, kuinka paljon dataa fyysisen tekoälyn opettaminen vaatii.

Autonominen liikkuva robotti navigoi sisätilan käytävällä

Mitä tämä tarkoittaa robotiikalle

Qwen-RobotSuite on osa laajempaa siirtymää kohti fyysistä tekoälyä. Samalla viikolla myös Genesis AI esitteli Eno-robottinsa, ja NVIDIA on tuonut omia agenttimallejaan. Kilpailu robotiikan perusmalleista kiihtyy.

Erona moneen kilpailijaan Qwen rakentaa kaiken saman näkö-kielimallin varaan. Yhteinen pohja helpottaa mallien yhdistämistä: manipulaatio, ennustaminen ja navigointi puhuvat samaa kieltä.

Avoimet repot laskevat kynnystä robotiikan tutkimukseen. Kun kaksi kolmesta mallista on ladattavissa, pienemmätkin tiimit pääsevät kokeilemaan VLA-malleja ilman omaa massiivista koulutusputkea.

Robotiikkainsinöörit seuraavat robottia teollisuuslaboratoriossa

Yhteenveto

Qwen-RobotSuite kokoaa kolme robotiikan perusmallia saman näkö-kielipohjan ympärille ja vie tekoälyn ruudulta fyysiseen maailmaan. RobotManip ja RobotNav nousivat vertailujensa kärkeen, ja molemmat ovat avoimia. Julkistus vahvistaa, että fyysinen tekoäly on noussut alan seuraavaksi kilpakentäksi.

Qwen-RobotSuite tuo kolme perusmallia fyysiseen tekoälyyn

Kolme mallia, kolme robotiikan ongelmaa

Manipulaatio ja maailmamallit kärkeen

Navigointi ja avoin koodi

Mitä tämä tarkoittaa robotiikalle

Yhteenveto

Aiheeseen liittyvät artikkelit

Nvidia sijoitti SSI:hin: Sutskeverin laskenta kymmenkertaistuu

Microsoft julkaisi MAI-Cyber-1-Flashin ja Project Perceptionin

KAT-Coder V2.5 ohitti Opus 4.8:n agenttikoodauksessa