Qwen3 Next 80B A3B Instruct
Описание
Qwen3-Next-80B-A3B-Instruct is the first in the Qwen3-Next series, featuring groundbreaking architectural innovations. It uses Hybrid Attention combining Gated DeltaNet and Gated Attention for efficient ultra-long context modeling, High-Sparsity MoE with 512 experts (10 activated + 1 shared) achieving extreme low activation ratio, and Multi-Token Prediction for improved performance and faster inference. With 80B total parameters and only 3B activated, it outperforms Qwen3-32B-Base with 10% training cost and 10x throughput for 32K+ contexts. The model performs on par with Qwen3-235B-A22B-Instruct-2507 while excelling at ultra-long-context tasks up to 256K tokens (extensible to 1M with YaRN). Architecture: 48 layers, 15T training tokens, hybrid layout of 12*(3*(Gated DeltaNet->MoE)->(Gated Attention->MoE)).
Радар способностей
Science использует прокси на основе рассуждений, когда специализированные научные бенчмарки недоступны.
Рейтинги
| Домен | #Место | Оценка | Источник |
|---|---|---|---|
| Агентные возможности | 13 | 70.0 | LS |
| Рейтинг кодинга | 172 | 52.0 | AA |
| Общий рейтинг | 272 | 39.0 | AA |
| Математическое мышление | 130 | 67.0 | AA |
| Наука | 225 | 46.0 | AA |
Оценки бенчмарков (LLM Stats)
Agents
Biology
Chemistry
Code
Communication
Creativity
Finance
General
Math
Индексы оценки AA
Оценки категорий LLM Stats
Цены
Скорость
Рейтинг цен провайдеров
Рейтинг цен провайдеров
13 провайдеров
Сравнение цен разных API-провайдеров для этой модели.