Stability AI esitteli Stable Audio 3:n, kolmen mallin perheen, joka tuottaa stereoääntä 44,1 kilohertsin näytteenottotaajuudella ja avaa sekä pienen että keskikokoisen variantin painot Hugging Faceen. Yhtiö julkisti samalla tutkimuspaperin, jossa kuvataan SAME-autoenkooderi ja kolmivaiheinen latentin diffuusion koulutus.

Julkaisu jatkaa avoimien mallien linjaa, jonka Stable Audio Open aloitti vuonna 2024. Kolmosversion tärkein muutos on pidempi tulospituus ja paikkaeditointi eli inpainting, joka antaa käyttäjälle tarttumapinnan diffuusiomallin tuotokseen ilman kokonaista uudelleengenerointia.

SAME-autoenkooderi puristaa äänen latenttitilaan


Stable Audio 3 nojaa SAME-nimiseen autoenkooderiin, joka pakkaa ääntä 4096-kertaisella alasämpläyksellä. Tulos on 256-ulotteinen latenttiesitys, joka virtaa noin 10,76 hertsin nopeudella. Tällainen tiivistys tekee pitkienkin äänileikkeiden generoinnista käytännöllistä kuluttajalaitteistolla.

Mallit jakavat saman ydinrakenteen: diffuusiomuuntaja eli DT työskentelee SAME-enkooderin latenttitilassa. Pienin DT on 459 miljoonan parametrin kokoinen, keskikokoinen 1,4 miljardin ja suurin 2,7 miljardin. Autoenkooderi vastaa erikseen jopa 850 miljoonasta lisäparametrista käytetystä variantista riippuen.

Stability AI:n tekninen paperi kuvaa kolmivaiheisen koulutuksen: flow matching rakentaa generatiivisen tehon, ja diskriminaattorin ohjaama jälkikoulutus terävöittää tulosta. Sisääntulo on 24 kilohertsin signaali, mutta autoenkooderi rekonstruoi 48 kilohertsin ulostulon, mikä jättää ylinäytteistettyä päätä taajuusvasteelle.



Abstrakti äänispektrogrammi taittuu kerroksiin SAME-autoenkooderin latenttitilaa kuvaten.


Kolme mallia eri käyttötarpeisiin


Pienin malliperhe jakautuu kahteen erikoistuvaan varianttiin: SA3 small-music tuottaa pelkkää musiikkia ja SA3 small-sfx vain äänitehosteita. Kummankin maksimipituus on kaksi minuuttia. Erottelu pitää 459 miljoonan parametrin koon tehokkaana, kun yksittäinen variantti voi keskittyä omaan tehtäväänsä.

Keskikokoinen ja suuri malli yhdistävät molemmat domainit ja venyttävät maksimipituuden kuuteen minuuttiin ja 20 sekuntiin. Tämä riittää kokonaiseen kappaleeseen tai pidempään äänisuunnittelukoosteeseen ilman pätkien yhdistelyä. Stability AI suosittaa keskikokoista mallia useimpiin käyttötapauksiin ja varaa suurimman täyteen tuotantotason työnkulkuun.

Pienen ja keskikokoisen mallin painot ovat ladattavissa Hugging Facesta. Suuri malli on saatavilla yritysasiakkaille erillisellä kaupallisella lisenssillä. Aiempi Stable Audio 2.5 -malli jäi yhtiön sisäiseen käyttöön, joten Stable Audio 3 on ensimmäinen pidemmän muodon Stable Audio, jonka painot avataan yleisölle.



Kolme studiokaiutinta peräkkäin pienestä suureen, kuvaten Stable Audio 3:n eri kokoisia malleja.


Inpainting-editointi ja muuttuva pituus


Pelkän kappaleen generoinnin sijaan Stable Audio 3 tukee paikkaeditointia eli inpaintingia. Käyttäjä voi merkitä äänitiedostosta välipätkän, jonka malli täyttää uudelleen muuhun materiaaliin sopivaksi. Vastaava periaate on tuttu kuvageneraattoreista, ja se tuo musiikkituotantoon työkalun, jolla huonon iskun tai epäpuhtaan instrumentin voi korvata kuulematta saumaa.

Mallit on koulutettu tukemaan vaihtelevia tulospituuksia natiivisti. Generointia ei ole sidottu kiinteään ikkunaan, joten käyttäjä voi pyytää sekuntien mittaista efektiä tai täysipitkän kappaleen samalla pyynnöllä. Aiemmissa diffuusioperusteisissa musiikkimalleissa kiinteä maksimipituus on rajannut käyttöä.

Stability AI:n tekninen paperi nimeää nämä ominaisuudet ensimmäisiksi kerroksiksi, joiden päälle yhteisö voi rakentaa hienosäätöjä. SAME-autoenkooderin matala latenttitaajuus tarkoittaa, että hienosäätö tai uudelleenkoulutus ei vaadi raskasta laskentakapasiteettia.



Digitaalisen ääniaseman aikajanalla aaltomuotoa muokataan inpainting-tyylisellä korvauksella.


Avoimet painot vauhdittavat ekosysteemiä


Stability AI viittaa avoimissa malleissaan johdonmukaiseen linjaan: Stable Audio Open julkaistiin heinäkuussa 2024 ja Stable Audio Open Small saman vuoden lopulla. Stable Audio 3 jatkaa tätä polkua merkittävällä laadullisella harppauksella. Pienin avoin malli tuottaa nyt kaksi minuuttia ääntä siellä, missä alkuperäinen avoin painos rajoittui alle minuuttiin.

Avoimet painot mahdollistavat itsehostauksen ja paikallisen ajon, mikä on monelle musiikkiteknologiastartupille ja äänisuunnittelutoimistolle ratkaiseva ehto. Painot voi ottaa käyttöön omalla GPU:lla, ja useat työkalut tarjoavat jo Stable Audio Open -tuen, johon kolmosversion painot kytkeytyvät suoraan.

Suuren mallin yritysreitti pitää Stability AI:n liiketoiminnan kestävänä. Yhtiö on hakenut viime vuosina vakaata tulovirtaa kaupallisten lisenssien kautta avoimien painojen rinnalla. Tällä jaolla pienempi joukko maksavia asiakkaita rahoittaa avoimen julkaisun, johon kehittäjäyhteisö voi kytkeä omat työnkulkunsa.



Kotistudion työpisteellä avoimet painot latautuvat kannettavalle mikrofonin ja kuulokkeiden lähellä.


Yhteenveto


Stable Audio 3 nostaa avoimien äänigenerointimallien rimaa. Pienen ja keskikokoisen variantin saaminen Hugging Faceen tarkoittaa, että musiikkituotannon ja äänisuunnittelun työkalupakki kasvaa kerralla mittavasti. Inpainting-editointi ja muuttuva tulospituus erottavat mallin aiemmista, kiinteäpituisista diffuusiomalleista.

Stability AI on samalla pitänyt suurimman variantin yrityskäyttöön kaupallisen lisenssin alla, mikä rahoittaa avointen mallien jatkokehityksen. Yhdistelmä antaa kehittäjäyhteisölle pidempiä tulospituuksia ja editointityökaluja, joita ei aiemmin ollut saatavilla samalla pakettiratkaisulla.