NVIDIA Nemotron TwoTower: 2,42x nopeampi diffuusiomalli

NVIDIA julkaisi Nemotron-Labs-TwoTowerin, avoimin painoin jaetun diffuusiokielimallin. Malli käy käsiksi tekstintuoton pullonkaulaan eli nopeuteen. MarkTechPostin mukaan se säilyttää 98,7 prosenttia autoregressiivisen verrokkinsa laadusta mutta tuottaa tekstiä 2,42-kertaisella nopeudella.

Diffuusiomallit lupaavat rinnakkaista ja iteratiivista tekstintuottoa autoregressiivisten mallien sijaan. Ongelmana on ollut, että yksi verkko joutuu hoitamaan kaksi tehtävää yhtä aikaa. TwoTower erottaa nämä roolit kahteen erilliseen torniin.

Kahden tornin arkkitehtuuri

Useimmat diffuusiokielimallit käyttävät yhtä verkkoa sekä kontekstin esittämiseen että kohinan poistoon joka askeleella. TwoTower jakaa nämä työt. Jäädytetty kontekstitorni käsittelee puhtaat tokenit kausaalisesti.

Toinen torni on koulutettu diffuusio-denoiser, joka tarkentaa kohinaisia lohkoja. Se katsoo kontekstitorniin ristikkäishuomion kautta ja käyttää kaksisuuntaista lohkohuomiota. Vain denoiser-torni koulutetaan; kontekstitorni pysyy paikallaan.

Molemmat tornit lähtevät saman perusmallin kopioista. Rakenne on lohkoittain autoregressiivinen: malli sitoo useita tokeneita kerralla dekoodauksen alkuvaiheessa. Tämä selittää havaitun nopeushyödyn verrattuna yhden tokenin kerrallaan etenevään dekoodaukseen.

Kaksi rinnakkaista hehkuvaa datatornia, toinen viileä ja staattinen, toinen lämmin ja dynaaminen

Nopeus ilman laadun romahdusta

Keskeinen lupaus on nopeus, joka ei syö laatua. TwoTower säilyttää 98,7 prosenttia autoregressiivisen perusmallin kokonaislaadusta oletusasetuksilla. Samalla se yltää 2,42-kertaiseen läpimenoon kellonaikaa vasten mitattuna.

Luvut on mitattu kahdella H100-näytönohjaimella oletusparametreilla. Malli sitoo useita tokeneita jokaisella tarkennusaskeleella dekoodauksen alussa. Se on avain nopeuseroon.

Tulos viittaa siihen, että maskattu diffuusio voi toimia käytännön dekoodaussovituksena suurille valmiiksi koulutetuille malleille. Se koskee myös hybridimalleja, joissa yhdistyvät Mamba, itsehuomio ja asiantuntijaseokset.

Nopea liike-epäterävä visualisointi tekstitokeneista, jotka virtaavat tummalla näytöllä suurella nopeudella

Avoimet painot ja käyttöönotto

TwoTower on rakennettu Nemotron-3-Nano-30B-A3B-rungon päälle, joka on avoin hybridimalli. Runko yhdistää Mamba-2-, itsehuomio- ja Mixture-of-Experts (MoE) -kerroksia. Denoiser koulutettiin noin 2,1 biljoonalla tokenilla, murto-osalla rungon 25 biljoonasta.

Julkaistu tarkistuspiste sisältää molemmat tornit, yhteensä noin 60 miljardia parametria. Aktiivisia parametreja on noin 3 miljardia tornia kohti. MoE käyttää 128:aa reititettävää asiantuntijaa, joista kuusi aktivoituu, sekä kahta jaettua asiantuntijaa.

Malli jaetaan avoimin painoin NVIDIA Nemotron Open Model -lisenssillä, ja se on valmis kaupalliseen käyttöön. Yksi tarkistuspiste tukee kolmea dekoodaustilaa: diffuusiota, mock-AR:ää ja tavallista autoregressiivistä tilaa. Painot ja koodi löytyvät GitHubista ja Hugging Facesta, ja malli toimii vLLM- ja SGLang-runtimeilla.

Palvelinräkki konesalissa, kaksi näytönohjainta hehkuu vihreänä viileässä sinisessä valossa

Yhteenveto

Nemotron-Labs-TwoTower osoittaa, että diffuusio voi nopeuttaa suuria autoregressiivisia malleja ilman merkittävää laadun menetystä. Kahden tornin jako antaa yhdelle mallille kolme dekoodaustilaa ja yli kaksinkertaisen läpimenon.

Avoin lisenssi ja tuki vakiintuneille runtimeille madaltavat käyttöönoton kynnystä. NVIDIA lupaa lisätä kokoelmaan myös jälkikoulutettuja TwoTower-malleja myöhemmin.

NVIDIA avasi Nemotron TwoTowerin: avoin diffuusiomalli

Kahden tornin arkkitehtuuri

Nopeus ilman laadun romahdusta

Avoimet painot ja käyttöönotto

Yhteenveto

Aiheeseen liittyvät artikkelit

Z.ai julkaisi ZCoden: agenttipohjainen kehitysympäristö

xAI julkaisi Voice Agent Builderin ääniautomaatioon

Google julkaisi TabFM:n: perusmalli taulukkodatalle