Nemotron 3 Nano Omni: NVIDIAn avoin multimodaalimalli

NVIDIA julkaisi 28. huhtikuuta avoimen multimodaalisen Nemotron 3 Nano Omni -mallin. Malli yhdistää videon, äänen, kuvan ja tekstin yhden ja saman moottorin alle ilman erillisiä havaintomalleja.

NVIDIAn omien mittausten mukaan Nemotron 3 Nano Omni saavuttaa jopa yhdeksänkertaisen läpisyötön muihin avoimiin omni-malleihin verrattuna samoissa interaktiivisuusrajoissa. Malli on suunnattu tehokkuusvaatimuksia kohtaaville agenttijärjestelmille.

Mikä Nemotron 3 Nano Omni on

Nemotron 3 Nano Omni on osa NVIDIAn omaa Nemotron-mallisarjaa, jonka uusin versio kantaa rakennetta 30B-A3B. Numerot kuvaavat kokonaisparametrimäärää, 30 miljardia, sekä aktiivisten parametrien määrää tehtäväkohtaisesti, 3 miljardia.

Malli käsittelee saman runkonsa kautta videon, äänen, kuvan ja tekstin. Aiemmissa avoimissa multimodaalisissa malleissa havainto on usein hoidettu erillisellä piippuverkolla. Se vaatii välivaiheita ja heikentää suorituskykyä.

NVIDIAn ratkaisu yhdistää näkö- ja kuuloenkooderit suoraan kielen kanssa samaan runkomalliin. Lopputuloksena käyttäjä saa yhden yhtenäisen kutsurajapinnan.

Multimodaalisen ytimen visualisointi, jossa video, ääni ja teksti yhdistyvät

Tehokas Mixture of Experts -arkkitehtuuri

Mixture of Experts (MoE) -arkkitehtuurissa malli ohjaa jokaisen pyynnön vain murto-osalle painoistaan. Käytännössä se tarkoittaa, että 30 miljardin parametrin mallista vain 3 miljardia työskentelee yhden pyynnön käsittelyssä.

NVIDIAn julkaisemissa luvuissa Nemotron 3 Nano Omni saavuttaa yhdeksänkertaisen läpisyötön samanlaisen vasteajan tarjoaviin avoimiin omni-malleihin verrattuna. Hinnoittelun ja skaalautuvuuden kannalta ero on merkittävä erityisesti agenttisovelluksissa, joissa kustannukset kertyvät kutsujen lukumäärästä.

Malli toimii NVIDIA Jetson -laitteistosta DGX Spark- ja DGX Cloud -ympäristöihin saakka. Yritykset voivat siten valita oman ajoinfrastruktuurinsa kapasiteetti- ja sijaintivaatimusten mukaan.

Mixture of Experts -arkkitehtuurin tehokas reititys neuroverkossa

Avoimet painot ja saatavuus

Nemotron 3 Nano Omni julkaistaan avoimina painoina. NVIDIAn mukaan myös koulutusdatat ja -tekniikat ovat osa pakettia, mikä mahdollistaa täydellisen läpinäkyvyyden mallin hienosäätöön.

Malli löytyy Hugging Face -alustalta ja OpenRouterista. Lisäksi sitä tarjotaan NVIDIA NIM -mikropalveluna build.nvidia.com-osoitteessa. Kumppaniverkosto kattaa NVIDIA Cloud Partner -pilvet sekä useita inferenssipalveluntarjoajia.

Lisensointi seuraa NVIDIAn aiempaa Nemotron-linjaa: kaupallinen käyttö on sallittua avoimen mallin tavanomaisin rajoituksin. Kaikki frontier-toimijat eivät tällaista mahdollisuutta tarjoa, joten avoin painotarjous on selkeä kilpailuetu.

Avoimet painot ja kehittäjäekosysteemi mallin ympärillä

Multimodaaliset käyttötapaukset agenteissa

Multimodaalisuus avaa ovet agenteille, jotka tunnistavat puhetta, lukevat näytön ja päättelevät sisällöstä saman pyynnön puitteissa. Esimerkki on asiakaspalveluagentti, joka kuulee puhelun, näkee asiakkaan jakaman kuvan tikettiin ja vastaa luonnollisella puheella.

NVIDIAn omat tuotekirjat ja autonomisten ajoneuvojen sovellukset ovat tunnistaneet samaa tarvetta jo aiemmin. Nemotron 3 Nano Omni viittaa siihen, että saman tason multimodaalisuus halutaan tuoda kaikille kehittäjille.

Yhdeksänkertainen läpisyöttö tarkoittaa myös, että iso määrä rinnakkaisia agentteja voi pyöriä samalla GPU-puolella. Operaattorin näkökulmasta tämä laskee yksittäisen agenttipyynnön hintaa niin alas, että uudet käyttötapaukset tulevat taloudellisesti mahdollisiksi.

Multimodaalinen tekoälyagentin työpöytä monella paneelilla

Yhteenveto

Nemotron 3 Nano Omni täydentää avointen multimodaalisten mallien kenttää uudella tehokkuusasetannolla. NVIDIAn mukaan malli yhdistää suorituskyvyn ja yhden yhtenäisen kutsurajapinnan, mikä helpottaa kehittäjien arkea ja alentaa tuotantokustannuksia.

Avoimet painot, laaja ekosysteemi ja MoE-arkkitehtuuri tekevät Nemotron Omnista kiinnostavan vaihtoehdon yrityksille, joiden agentit hyödyntävät useita modaliteetteja samanaikaisesti.

NVIDIA julkaisi Nemotron 3 Nano Omnin: avoin multimodaalimalli

Mikä Nemotron 3 Nano Omni on

Tehokas Mixture of Experts -arkkitehtuuri

Avoimet painot ja saatavuus

Multimodaaliset käyttötapaukset agenteissa

Yhteenveto

Aiheeseen liittyvät artikkelit

OpenAI julkaisi GPT-5.6:n: Sol, Terra ja Luna saataville

Mistral Robostral Navigate ohjaa robottia yhdellä kameralla

OpenAI julkaisi GPT-Liven: ChatGPT puhuu ja kuuntelee