NVIDIA julkaisi 28. huhtikuuta avoimen multimodaalisen Nemotron 3 Nano Omni -mallin. Malli yhdistää videon, äänen, kuvan ja tekstin yhden ja saman moottorin alle ilman erillisiä havaintomalleja.
NVIDIAn omien mittausten mukaan Nemotron 3 Nano Omni saavuttaa jopa yhdeksänkertaisen läpisyötön muihin avoimiin omni-malleihin verrattuna samoissa interaktiivisuusrajoissa. Malli on suunnattu tehokkuusvaatimuksia kohtaaville agenttijärjestelmille.
Mikä Nemotron 3 Nano Omni on
Nemotron 3 Nano Omni on osa NVIDIAn omaa Nemotron-mallisarjaa, jonka uusin versio kantaa rakennetta 30B-A3B. Numerot kuvaavat kokonaisparametrimäärää, 30 miljardia, sekä aktiivisten parametrien määrää tehtäväkohtaisesti, 3 miljardia.
Malli käsittelee saman runkonsa kautta videon, äänen, kuvan ja tekstin. Aiemmissa avoimissa multimodaalisissa malleissa havainto on usein hoidettu erillisellä piippuverkolla. Se vaatii välivaiheita ja heikentää suorituskykyä.
NVIDIAn ratkaisu yhdistää näkö- ja kuuloenkooderit suoraan kielen kanssa samaan runkomalliin. Lopputuloksena käyttäjä saa yhden yhtenäisen kutsurajapinnan.

Tehokas Mixture of Experts -arkkitehtuuri
Mixture of Experts (MoE) -arkkitehtuurissa malli ohjaa jokaisen pyynnön vain murto-osalle painoistaan. Käytännössä se tarkoittaa, että 30 miljardin parametrin mallista vain 3 miljardia työskentelee yhden pyynnön käsittelyssä.
NVIDIAn julkaisemissa luvuissa Nemotron 3 Nano Omni saavuttaa yhdeksänkertaisen läpisyötön samanlaisen vasteajan tarjoaviin avoimiin omni-malleihin verrattuna. Hinnoittelun ja skaalautuvuuden kannalta ero on merkittävä erityisesti agenttisovelluksissa, joissa kustannukset kertyvät kutsujen lukumäärästä.
Malli toimii NVIDIA Jetson -laitteistosta DGX Spark- ja DGX Cloud -ympäristöihin saakka. Yritykset voivat siten valita oman ajoinfrastruktuurinsa kapasiteetti- ja sijaintivaatimusten mukaan.

Avoimet painot ja saatavuus
Nemotron 3 Nano Omni julkaistaan avoimina painoina. NVIDIAn mukaan myös koulutusdatat ja -tekniikat ovat osa pakettia, mikä mahdollistaa täydellisen läpinäkyvyyden mallin hienosäätöön.
Malli löytyy Hugging Face -alustalta ja OpenRouterista. Lisäksi sitä tarjotaan NVIDIA NIM -mikropalveluna build.nvidia.com-osoitteessa. Kumppaniverkosto kattaa NVIDIA Cloud Partner -pilvet sekä useita inferenssipalveluntarjoajia.
Lisensointi seuraa NVIDIAn aiempaa Nemotron-linjaa: kaupallinen käyttö on sallittua avoimen mallin tavanomaisin rajoituksin. Kaikki frontier-toimijat eivät tällaista mahdollisuutta tarjoa, joten avoin painotarjous on selkeä kilpailuetu.

Multimodaaliset käyttötapaukset agenteissa
Multimodaalisuus avaa ovet agenteille, jotka tunnistavat puhetta, lukevat näytön ja päättelevät sisällöstä saman pyynnön puitteissa. Esimerkki on asiakaspalveluagentti, joka kuulee puhelun, näkee asiakkaan jakaman kuvan tikettiin ja vastaa luonnollisella puheella.
NVIDIAn omat tuotekirjat ja autonomisten ajoneuvojen sovellukset ovat tunnistaneet samaa tarvetta jo aiemmin. Nemotron 3 Nano Omni viittaa siihen, että saman tason multimodaalisuus halutaan tuoda kaikille kehittäjille.
Yhdeksänkertainen läpisyöttö tarkoittaa myös, että iso määrä rinnakkaisia agentteja voi pyöriä samalla GPU-puolella. Operaattorin näkökulmasta tämä laskee yksittäisen agenttipyynnön hintaa niin alas, että uudet käyttötapaukset tulevat taloudellisesti mahdollisiksi.

Yhteenveto
Nemotron 3 Nano Omni täydentää avointen multimodaalisten mallien kenttää uudella tehokkuusasetannolla. NVIDIAn mukaan malli yhdistää suorituskyvyn ja yhden yhtenäisen kutsurajapinnan, mikä helpottaa kehittäjien arkea ja alentaa tuotantokustannuksia.
Avoimet painot, laaja ekosysteemi ja MoE-arkkitehtuuri tekevät Nemotron Omnista kiinnostavan vaihtoehdon yrityksille, joiden agentit hyödyntävät useita modaliteetteja samanaikaisesti.
