DeepSeek julkaisi 27. kesäkuuta DSparkin, spekulatiivisen dekoodauksen kehyksen, joka nopeuttaa yhtiön V4-mallien päättelyä huomattavasti. Kyseessä ei ole uusi malli vaan palvelinpuolen optimointi, joka kytkeytyy olemassa oleviin DeepSeek-V4-painokertoimiin. Samalla yhtiö avasi DeepSpec-koodiston, jolla kuka tahansa voi kouluttaa ja arvioida vastaavia menetelmiä. Julkaisu on harvinaisen konkreettinen esimerkki siitä, miten päättelyä voi kiihdyttää koskematta itse malliin.

Mikä DSpark on ja miten se toimii


Spekulatiivinen dekoodaus on yksi käytännöllisimmistä keinoista nopeuttaa kielimallien päättelyä laatua heikentämättä. Kevyt luonnosmalli ehdottaa useita seuraavia sanoja kerralla, ja suurempi kohdemalli varmistaa ne rinnakkain yhdessä erässä. Näin malli tuottaa monta token-yksikköä yhden kierroksen aikana sen sijaan, että se laskisi ne yksitellen.

DSpark yhdistää rinnakkaisen luonnosrungon ja pienen peräkkäisen pään. Rinnakkainen osa tuottaa ehdotukset nopeasti, ja peräkkäinen pää vähentää loppupään tarkkuuden rapautumista. DeepSeekin tutkimuspaperin mukaan menetelmä kasvattaa hyväksyttyjen tokenien määrää 26–31 prosenttia Eagle3-menetelmään ja 16–18 prosenttia DFlash-menetelmään verrattuna.

Kehyksessä on myös luottamuspää ja kuormatietoinen ajastin. Ne säätävät varmistettavien tokenien määrää sen mukaan, kuinka kiireisiä näytönohjaimet ovat. Kun laskentaa on vapaana, malli varmistaa enemmän tokeneita kerralla, ja ruuhkassa vähemmän. Tämä pitää suorittimet tehokkaassa käytössä myös vaihtelevassa liikenteessä.

DeepSeek kutsuu lähestymistapaa puoliksi rinnakkaiseksi. Se yhdistää korkean läpäisyn rinnakkaisgeneroinnin ja mukautuvan varmistuksen. Malli arvaa useita ehdokkaita yhtä aikaa ja varmistaa vain lupaavimmat. Näin turhaa laskentaa syntyy vähemmän kuin perinteisessä yksi token kerrallaan -dekoodauksessa.



Havainnekuva spekulatiivisesta dekoodauksesta, kaksi rinnakkaista token-virtaa


Nopeushyödyt tuotannossa


DSpark on jo käytössä DeepSeekin omassa tuotantoliikenteessä, ei vain laboratoriotesteissä. Yhtiö vertaa sitä aiempaan MTP-1-perustasoonsa. Käyttäjäkohtainen vastausnopeus kasvaa 60–85 prosenttia Flash-mallissa ja 57–78 prosenttia Pro-mallissa.

Kokonaisläpäisy paranee vielä enemmän rinnakkaisuuden kasvaessa. DeepSeek raportoi 51–400 prosentin parannuksia läpäisyssä samalla laitteistolla. Tuotantoon valittu kokoonpano on DSpark-5, viiden tokenin luonnoslohko Markov-päällä.

Olennaista on, että nopeus ei tule laadun kustannuksella. Tuotos pysyy häviöttömänä eli vastaa täsmälleen alkuperäisen mallin tulosta. Käytännössä sama vastaus syntyy vähemmällä laskenta-ajalla ja pienemmillä kustannuksilla.

Tuotantoluvut perustuvat V4-Flashin ja V4-Pron live-liikenteeseen, eivät synteettisiin testeihin. DeepSeekin mukaan menetelmä päihittää aiemmat kiihdytystavat, kuten Eagle-3:n ja DFlashin, myös käytännön kuormassa. Yhdistelmä korkeaa läpäisyä ja säilynyttä laatua on harvinainen, sillä nopeutus vie tavallisesti tarkkuutta.



Rivisto tehokkaita GPU-palvelimia datakeskuksessa


Avoin DeepSpec-koodisto


DSparkin rinnalla DeepSeek avasi DeepSpecin, MIT-lisensoidun koodiston spekulatiivisen dekoodauksen luonnosmallien kouluttamiseen ja arviointiin. Paketti sisältää kolme algoritmia: DSparkin, DFlashin ja Eagle3:n. Mukana ovat datan valmistelun, koulutuksen ja arvioinnin työkalut.

Arviointi kattaa yhdeksän vertailuaineistoa, kuten GSM8K, MATH500, HumanEval ja LiveCodeBench. Tuetut kohdemallit ovat toistaiseksi Qwen3- ja Gemma-perheet. Valmiit tarkistuspisteet löytyvät Hugging Facesta, eikä kohdemallia tarvitse kouluttaa uudelleen.

Kynnys täydelle koulutusputkelle on silti korkea. Oletuskokoonpano olettaa yhden kahdeksan näytönohjaimen solmun. Pelkkä Qwen3-4B-asetuksen kohdevälimuisti vie noin 38 teratavua levytilaa, mikä rajaa täyden ajon harvojen ulottuville.

Pelkkien valmiiden painojen sijaan DeepSeek julkaisi koko koulutusputken. Tämä antaa tutkijoille mahdollisuuden rakentaa omia luonnosmalleja ja verrata niitä samalla yhdeksän aineiston testisarjalla. Avoimuus luo yhteisen vertailupohjan, jollaista alalta on aiemmin puuttunut.



Ohjelmistokehittajan tyopiste, jolla avointa koodia ja vertailukaavioita


Mitä tämä tarkoittaa kehittäjille


Kehittäjille DSpark tarkoittaa halvempaa ja nopeampaa päättelyä ilman mallin vaihtoa. Tiimit, jotka jo ajavat Qwen3- tai Gemma-malleja, voivat ottaa luonnosmallin käyttöön suoraan. Inferenssikustannusten lasku muuttaa laskelmia niin pilvipalveluissa kuin omilla palvelimilla.

Vaikutus ulottuu myös hajautettuihin laskentaverkkoihin, joissa näytönohjainaikaa vuokrataan. Jos samalla laitteistolla voi palvella selvästi enemmän pyyntöjä, yksikkötalous paranee. Tämä on merkittävää kaikille, jotka maksavat päättelystä käsiteltyjen tokenien mukaan.

Numeroihin kannattaa silti suhtautua varauksella. Kaikki nopeusluvut on mitattu DeepSeekin omalla laitteistolla ja verrattu yhtiön aiempaan menetelmään. Julkaisu ei kerro tuloksia kahden tuetun malliperheen ulkopuolelta. Avoin koodi antaa kuitenkin muille mahdollisuuden toistaa testit itse.

Käytännössä luonnosmoduuli kiinnittyy olemassa oleviin V4-painoihin, eikä kohdemallia tarvitse opettaa uudelleen. Hugging Facen mallikortit sisältävät pienen esimerkin päättelyn ajamiseen. Kynnys kokeilla on siis matala niille, joilla on jo sopiva laitteisto.



Vaaka, jossa palvelinsiru ja kolikkopino kuvaavat paattelyn kustannuksia


Yhteenveto


DSpark osoittaa, että merkittäviä nopeusparannuksia voi saada ilman uutta jättimallia. Häviötön tuotos, avoin koodi ja jopa 85 prosentin nopeutus tekevät siitä käytännönläheisen työkalun päättelyn kiihdyttämiseen. Suurin avoin kysymys on, kuinka hyvin hyödyt siirtyvät DeepSeekin oman ympäristön ja kahden tuetun malliperheen ulkopuolelle.

Avoin julkaisu asettaa myös vertailukohdan muille toimijoille. Jos kilpailijat omaksuvat saman tekniikan, päättelyn hinta voi laskea koko alalla.