Qwen3 Next 80B A3B Instruct
Description
Qwen3-Next-80B-A3B-Instruct is the first in the Qwen3-Next series, featuring groundbreaking architectural innovations. It uses Hybrid Attention combining Gated DeltaNet and Gated Attention for efficient ultra-long context modeling, High-Sparsity MoE with 512 experts (10 activated + 1 shared) achieving extreme low activation ratio, and Multi-Token Prediction for improved performance and faster inference. With 80B total parameters and only 3B activated, it outperforms Qwen3-32B-Base with 10% training cost and 10x throughput for 32K+ contexts. The model performs on par with Qwen3-235B-A22B-Instruct-2507 while excelling at ultra-long-context tasks up to 256K tokens (extensible to 1M with YaRN). Architecture: 48 layers, 15T training tokens, hybrid layout of 12*(3*(Gated DeltaNet->MoE)->(Gated Attention->MoE)).
Radar de capacités
Science utilise un proxy de raisonnement lorsque les benchmarks scientifiques dédiés ne sont pas disponibles.
Classements
| Domaine | #Rang | Score | Source |
|---|---|---|---|
| Capacité agentique | 13 | 70.0 | LS |
| Classement codage | 172 | 52.0 | AA |
| Classement général | 272 | 39.0 | AA |
| Raisonnement mathématique | 130 | 67.0 | AA |
| Science | 225 | 46.0 | AA |
Scores de benchmarks (LLM Stats)
Agents
Biology
Chemistry
Code
Communication
Creativity
Finance
General
Math
Indices d'évaluation AA
Scores par catégorie LLM Stats
Tarification
Vitesse
Classement des Prix par Fournisseur
Classement des Prix par Fournisseur
13 fournisseurs
Comparer les prix entre différents fournisseurs API pour ce modèle.