Alibaban Qwen3.7-Max: agenttimalli 35 tunnin ajoihin

Alibaba julkisti Qwen3.7-Maxin Cloud Summit -tapahtumassa 20. toukokuuta 2026. Kiinalaisen pilvijätin agenttimalli ajoi sisäisessä testissä yli 35 tuntia ilman ihmistä, suoritti 1 158 työkalukutsua ja paransi yhden CUDA-ytimen ajoaikaa kymmenkertaiseksi.

Qwen3.7-Max on suunnattu pitkän aikajänteen agenteille, ei keskusteluavustajaksi. Samalla se on Qwen-perheen ensimmäinen suljettu lippulaiva, eikä avoimia painoja ole tarjolla.

Pitkä autonominen ajo nostaa Qwenin riman uudelle tasolle

Alibaban julkaisemissa testituloksissa Qwen3.7-Max suoritti yhden pitkän koodausoptimointitehtävän kerralla loppuun. VentureBeatin raportoinnin mukaan malli ajoi 35 tuntia putkeen, jakoi tehtävän viiteen arkkitehtuurirevisioon ja teki 432 ydinevaluaatiota.

Testi suoritettiin T-Headin Zhenwu M890 -kiihdyttimellä. Optimointi koski Extend Attention -ydintä, joka nopeutui 10-kertaiseksi Triton-referenssitoteutukseen verrattuna.

Tulos näkyy suoraan benchmarkeissa. Terminal-Bench 2.0 -testissä malli sai pistemäärän 69,7 ja päihitti DeepSeek V4-Pro Maxin sekä Claude Opus 4.6 Maxin pitkien terminal-istuntojen tuloksissa.

Terminal-Bench Hard -arviossa pisteet nousivat edellisen sukupolven 43,9 prosentista 50,8 prosenttiin. Erityisesti pitkien työnkulkujen vakaus on parantunut, ja malli pärjää ympäristössä, jossa aiemmat versiot tipahtivat usein virhesilmukkaan.

Pitkävalotusvalokuva tekoälydata-keskuksen käytävästä neonsinisillä valoraidoilla

Miljoonan tokenin konteksti ja Claude-yhteensopivuus

Qwen3.7-Maxin kontekstikkuna on miljoona tokenia. Se on nelinkertainen Qwen3.6 Maxin 256 000 tokeniin verrattuna ja tuo mallin samaan kokoluokkaan Gemini 3.5 Flashin ja Claude Opus 4.7:n kanssa.

Ulostuloraja on 64 000 tokenia, mikä riittää pitkille koodimuutoksille ja monisivuisille analyysidokumenteille. Alibaba korostaa myös ominaisuutta, jota se kutsuu nimellä cross-harness generalization: malli toimii myös muiden valmistajien agenttirungoissa.

Käytännössä Qwen3.7-Max tukee Anthropicin API-protokollaa natiivisti. Kehittäjät voivat ajaa sitä Claude Coden tai OpenClaw'n läpi vaihtamatta omaa työkaluintegraatiotaan.

Vaihto ei vaadi koodimuutoksia, vain palvelimen osoitteen vaihdon Alibaba Cloud Model Studion endpointtiin. Tämä on harvinainen avaus kiinalaiselta malliperheeltä, joka on aiemmin nojannut omaan Qwen-Agent-runkoonsa.

Hehkuva ohjelmistorajapintojen yhteenliittymä symboloi Claude-yhteensopivuutta

Benchmarkit nostavat mallin globaaliin viisikkoon

Artificial Analysis Intelligence Indexissä Qwen3.7-Max sai pistemäärän 56,6 ja nousi sijalle viisi. Edellinen lippulaiva Qwen3.6 Max Preview ylsi 51,8 pisteeseen. Composite-tuloksessa malli ohittaa myös Google Gemini 3.5 Flashin pistemäärän 55,3.

Suurimmat parannukset näkyvät tieteellisessä päättelyssä ja agenttitehtävissä. Humanity's Last Exam nousi 28,9 prosentista 38,1 prosenttiin. CritPt-testissä pistemäärä hyppäsi 3,7 prosentista 13,4 prosenttiin.

Yksi tulos vaatii varovaisempaa luentaa. AA-Omniscience-testissä raaka tarkkuus laski 7,6 prosenttiyksikköä, mutta hallusinaatioprosentti tippui 44,2:sta 22,9:ään. MarkTechPostin analyysin mukaan malli valitsee aiempaa useammin "en tiedä" -vastauksen sen sijaan, että keksisi tiedon.

Coding-puolella tulokset ovat tasaisemmat. SWE-Verified-testissä Qwen3.7-Max saa 80,4 pistettä, mikä on käytännössä sama kuin Claude Opus 4.6 Maxin 80,8 ja DeepSeek V4-Pro Maxin 80,6.

Abstrakti hehkuva benchmark-pylväskaavio tummalla pöydällä

Hinnoittelu kilpailee länsimaisten huippumallien kanssa

Alibaba Cloud Model Studion hinta Qwen3.7-Maxille on 2,50 dollaria miljoonalta sisääntulotokenilta ja 7,50 dollaria miljoonalta ulostulotokenilta. Välimuistilukema maksaa 0,50 dollaria, ja websearch-integraatio 10 dollaria tuhannelta kutsulta.

Hinta on lähes kaksinkertainen DeepSeek V4-Pron 5,22 dollariin ja Z.ai:n GLM-5.1:n 5,80 dollariin verrattuna. Sen sijaan se on huomattavasti edullisempi kuin OpenAI:n GPT-5.4:n 17,50 dollarin tai Anthropicin Claude Opus 4.7:n 30 dollarin yhdistelmähinta.

Vertailupisteenä Google asettaa Gemini 3.5 Flashin 10,50 dollariin. Qwen3.7-Max sijoittuu siis lähelle Gemini Flashin tasoa mutta selvästi länsimaisten lippulaivojen alle.

Malli on saatavilla vain rajapinnan kautta. Avoimia painoja ei ole tarjolla, eikä julkaisua ole luvattu lähitulevaisuudessa. Kyseessä on selvä strateginen muutos verrattuna aiempiin Qwen-julkaisuihin, jotka avattiin Apache- tai vastaavalla lisenssillä.

Läpinäkyvät hehkuvat hintatasot tummalla heijastavalla pinnalla

Yhteenveto

Qwen3.7-Max on selvä siirtymä Qwen-perheessä keskustelumalleista pitkän aikajänteen agenttitehtäviin. Miljoonan tokenin konteksti, 35 tunnin autonomiset ajot ja Anthropic-yhteensopiva rajapinta tekevät mallista käyttökelpoisen myös länsimaisissa kehitystyökaluissa.

Suljettu lisensointi on hintansa, mutta Alibaba on sentään pitänyt rajapinnan auki ulkopuolisille agenttirungoille. Kehittäjille käytännön kysymys on, riittääkö kotimainen tukikieli ja vakaa suorituskyky eurooppalaiseen käyttöön.

Alibaban Qwen3.7-Max ajaa itsenäisesti yli 35 tuntia

Pitkä autonominen ajo nostaa Qwenin riman uudelle tasolle

Miljoonan tokenin konteksti ja Claude-yhteensopivuus

Benchmarkit nostavat mallin globaaliin viisikkoon

Hinnoittelu kilpailee länsimaisten huippumallien kanssa

Yhteenveto

Aiheeseen liittyvät artikkelit

Applen Safari-MCP antaa koodausagenteille pääsyn selaimeen

Anthropic julkaisi Claude Sciencen: tekoälytyöpöytä tutkijoille

ctx indeksoi tekoälyagenttien muistin yhdellä komennolla