Google julkaisi OpenRL:n, avoimen rajapinnan kielimallien jälkikoulutukseen. GKE Labsista syntynyt työkalu antaa kehittäjien hienosäätää malleja omassa Kubernetes-klusterissaan. Julkaisu on tutkimusesikatselu eli varhainen versio kehittäjäpalautetta varten.

OpenRL pyrkii piilottamaan jälkikoulutuksen monimutkaisen infrastruktuurin yksinkertaisen rajapinnan taakse. Google kertoo blogissaan saaneensa inspiraationsa Thinking Machinesin Tinker-rajapinnasta. Tavoitteena on tehdä mallien jatkokoulutuksesta toistettava rakennuspalikka.

Mikä OpenRL on


OpenRL on itse isännöitävä koulutusrajapinta LLM-mallien hienosäätöön. Toisin kuin hallinnoitu pilvipalvelu, se ajetaan omalla Kubernetes-klusterilla. Näin tiimi säilyttää datansa ja mallinsa täysin omassa hallinnassaan.

Ensimmäinen versio keskittyy LoRA-hienosäätöön, joka päivittää vain pienen osan mallin painoista. Menetelmä keventää muistin ja laskennan tarvetta. Google aikoo laajentaa projektia täyteen parametrien hienosäätöön myöhemmin.

OpenRL syntyi Googlen GKE Labsissa ja julkaistiin avoimena lähdekoodina. Yhtiö pyytää kehittäjiä kokeilemaan työkalua ja antamaan palautetta. Kyseessä on tietoisesti varhainen mutta toimiva pohja.



Avoimen tekoälyn koulutusputki hehkuvina yhteen kytkettyinä moduuleina


Tinker-yhteensopiva rajapinta


OpenRL:n rajapinta on yhteensopiva Thinking Machinesin Tinkerin kanssa. Tinker tiivisti jälkikoulutuksen neljään keskeiseen rajapintakutsuun. Google pitää tätä tasapainoa onnistuneena ja rakentaa sen varaan.

Yhteensopivuus tarkoittaa, että Tinker-Cookbookin valmiit reseptit toimivat suoraan OpenRL:n kanssa. Kehittäjän ei tarvitse opetella uutta työkalupakkia alusta. Olemassa olevat koulutusputket siirtyvät vähällä vaivalla.

Google lisäsi mukaan myös automaattisen tutkimusreseptin, joka on saanut vaikutteita Andrej Karpathyn työstä. Resepti ajaa rinnakkaisia kokeita ja hakee parempaa palkkiosignaalia. Esimerkkitapauksena on tekstistä SQL:ksi kääntävä Gemma-malli.



Neljä hehkuvaa API-palikkaa loksahtaa yhteen kuin palapelin palat


Mac, näytönohjaimet ja GKE


OpenRL toimii kolmessa ympäristössä: Macilla, NVIDIA-näytönohjaimilla ja Google Kubernetes Enginessä. Kehittäjä voi testata vahvistusoppimisen silmukkaa ensin paikallisesti. Kun silmukka toimii, saman koodin voi skaalata pilveen.

Tämä madaltaa kynnystä kokeilla mallien jatkokoulutusta. Raskasta laskentaympäristöä ei tarvitse pystyttää heti alussa. Skaalaus tapahtuu osoittamalla rajapinta GKE-klusterissa ajettavaan päätepisteeseen.



Kannettava kytkeytyy valovirtoina näytönohjainklusteriin ja pilvikonesaliin


Mitä OpenRL ei ole


Google korostaa, ettei OpenRL ole hallinnoitu pilvipalvelu. Käyttäjät vastaavat itse sen käyttöönotosta ja ylläpidosta omassa klusterissaan. Tämä on tietoinen valinta datan hallinnan ja yksityisyyden hyväksi.

Toisaalta OpenRL ei myöskään ole valmis vahvistusoppimisen kehys. Se antaa tutkijoille täyden kontrollin omaan RL-silmukkaansa. Google aikoo kehittää projektia kohti monitenanttisuutta ja täyttä hienosäätöä.



Tutkijan kädet säätävät hehkuvia kiekkoja vahvistusoppimisen ohjauspaneelissa


Yhteenveto


OpenRL tuo mallien hienosäädön kehittäjän omaan ympäristöön ilman raskasta infrastruktuuria. Tinker-yhteensopivuus ja avoin lähdekoodi madaltavat käyttöönoton kynnystä. Tutkimusesikatseluna se on vasta alku, mutta suunta kohti hallittavaa jälkikoulutusta on selvä.