Alibaba vydala Qwen3.6-35B-A3B: otevřený model s překvapivým výkonem za zlomek nákladů
Tým Qwen z Alibaby dnes vydal nový open-source multimodální model Qwen3.6-35B-A3B. Jde o architekturu typu sparse Mixture-of-Experts (MoE) s 35 miliardami celkových parametrů, přičemž při každém výpočtu jsou aktivní pouze 3 miliardy z nich – model je tedy výrazně úspornější, než by napovídalo jeho označení.
Model je vydán pod licencí Apache 2.0, což znamená, že ho firmy i vývojáři mohou volně používat, upravovat a stavět na něm vlastní aplikace.
Proč je to zajímavé?
Právě architektura je tím, co dělá tento model výjimečným. Díky aktivaci pouhých 3 miliard parametrů při inferenci nabízí Qwen3.6-35B-A3B ekonomiku malého modelu, přičemž čerpá ze znalostní kapacity modelu mnohem většího. Výsledky v benchmarcích to potvrzují: v agenturních programovacích úkolech konkuruje, a v řadě případů předčí husté modely desetkrát větší velikosti aktivních parametrů. Na Terminal-Bench 2.0 (agenturní terminálové programování) dosahuje skóre 51,5 oproti 42,9 u Gemma4-31B od Googlu.
Model také výrazně překonává svého předchůdce Qwen3.5-35B-A3B v téměř všech benchmarcích, což naznačuje, že mezigenerační posun je podstatný, nikoli postupný.
Multimodalita a délka kontextu
Qwen3.6 je nativně multimodální a podporuje jak „myšlenkový“ (thinking), tak „přímý“ (non-thinking) režim. Vývojáři tak mohou volit mezi krok-za-krokem uvažováním nebo rychlými odpověďmi. Nativně zvládá kontext délky 262 144 tokenů, rozšiřitelný až na přibližně jeden milion tokenů.
Alibaba tvrdí, že ve většině multimodálních úloh se výkon modelu vyrovná Claude Sonnet 4.5 a v prostorové inteligenci ho dokonce překonává – dosahuje 92,0 na RefCOCO a 50,8 na ODInW13.
Model je dostupný na Hugging Face i ModelScope.
… reposted this!