Qwen3 Next 80B A3B Instruct
विवरण
Qwen3-Next-80B-A3B-Instruct is the first in the Qwen3-Next series, featuring groundbreaking architectural innovations. It uses Hybrid Attention combining Gated DeltaNet and Gated Attention for efficient ultra-long context modeling, High-Sparsity MoE with 512 experts (10 activated + 1 shared) achieving extreme low activation ratio, and Multi-Token Prediction for improved performance and faster inference. With 80B total parameters and only 3B activated, it outperforms Qwen3-32B-Base with 10% training cost and 10x throughput for 32K+ contexts. The model performs on par with Qwen3-235B-A22B-Instruct-2507 while excelling at ultra-long-context tasks up to 256K tokens (extensible to 1M with YaRN). Architecture: 48 layers, 15T training tokens, hybrid layout of 12*(3*(Gated DeltaNet->MoE)->(Gated Attention->MoE)).
क्षमता रडार
समर्पित विज्ञान बेंचमार्क उपलब्ध न होने पर Science तर्क प्रॉक्सी का उपयोग करके अनुमान लगाता है।
रैंकिंग
| डोमेन | #रैंक | स्कोर | स्रोत |
|---|---|---|---|
| एजेंटिक क्षमता | 13 | 70.0 | LS |
| कोडिंग रैंकिंग | 172 | 52.0 | AA |
| सामान्य रैंकिंग | 272 | 39.0 | AA |
| गणितीय तर्क | 130 | 67.0 | AA |
| विज्ञान | 225 | 46.0 | AA |
बेंचमार्क स्कोर (LLM Stats)
Agents
Biology
Chemistry
Code
Communication
Creativity
Finance
General
Math
AA मूल्यांकन सूचकांक
LLM Stats श्रेणी स्कोर
मूल्य निर्धारण
गति
प्रदाता मूल्य रैंकिंग
प्रदाता मूल्य रैंकिंग
13 प्रदाता
इस मॉडल के लिए विभिन्न API प्रदाताओं के मूल्य निर्धारण की तुलना करें।