Перейти к основному содержанию

Qwen3 8B (Reasoning)

AlibabaQwen
Дата выхода
2025-04-28
Параметры
Длина контекста
262K
Модальности
audio, image, text, video

Радар способностей

27
general
37
coding
48
reasoning
35
scienceоцен.
60
agents
80
multimodal

Science использует прокси на основе рассуждений, когда специализированные научные бенчмарки недоступны.

Рейтинги

Домен#МестоОценкаИсточник
Рейтинг кодинга406
16.0
AA
Общий рейтинг351
32.0
AA
Математическое мышление203
45.0
AA
Наука341
34.0
AA

Оценки бенчмарков (LLM Stats)

3d

SUNRGBD0.33 / 100Сам.
Hypersim0.13 / 100Сам.

Agents

t2-bench81.2%Сам.
AndroidWorld_SR71.1%Сам.
BFCL-V467.3%Сам.
BrowseComp61.0%Сам.
FullStackBench en58.1%Сам.
WideSearch57.1%Сам.
TIR-Bench55.5%Сам.
FullStackBench zh55.0%Сам.
OSWorld-Verified54.5%Сам.
Terminal-Bench 2.040.5%Сам.
VITA-Bench31.9%Сам.
DeepPlanning22.8%Сам.

Biology

GPQA84.2%Сам.

Chemistry

SuperGPQA63.4%Сам.

Code

SWE-Bench Verified69.2%Сам.

Communication

Multi-Challenge60.0%Сам.

Embodied

EmbSpatialBench0.83 / 100Сам.

Finance

MMLU-Pro85.3%Сам.
MMLU-ProX81.0%Сам.

General

MMLU-Redux93.3%Сам.
IFEval91.9%Сам.
C-Eval90.2%Сам.
MAXIFE86.6%Сам.
Global PIQA86.6%Сам.
MMMLU85.2%Сам.
MMStar81.9%Сам.
MMMU81.4%Сам.
Include79.7%Сам.
MMMU-Pro75.1%Сам.
LiveCodeBench v674.6%Сам.
IFBench70.2%Сам.
LongBench v259.0%Сам.
SimpleVQA0.58 / 100Сам.
NOVA-6357.1%Сам.

Grounding

RefCOCO-avg0.89 / 100Сам.
ScreenSpot Pro68.6%Сам.
RefSpatialBench0.64 / 100Сам.

Healthcare

VideoMMMU80.4%Сам.
SlakeVQA78.7%Сам.
PMC-VQA62.0%Сам.
MedXpertQA61.4%Сам.

Image To Text

OCRBench91.0%Сам.

Language

LingoQA79.2%Сам.
WMT24++76.3%Сам.

Long Context

MLVU85.6%Сам.
LVBench71.4%Сам.
MMLongBench-Doc0.59 / 100Сам.
AA-LCR58.5%Сам.

Math

HMMT2589.2%Сам.
HMMT 202589.0%Сам.
MathVista-Mini86.2%Сам.
DynaMath85.0%Сам.
MathVision83.9%Сам.
CodeForces0.82 / 3000Сам.
PolyMATH64.4%Сам.
Humanity's Last Exam47.4%Сам.

Multimodal

VLMsAreBlind97.0%Сам.
V*92.7%Сам.
AI2D92.6%Сам.
MMBench-V1.191.5%Сам.
OmniDocBench 1.589.3%Сам.
VideoMME w sub.86.6%Сам.
VideoMME w/o sub.82.5%Сам.
CC-OCR80.7%Сам.
CharXiv-R77.5%Сам.
MVBench74.8%Сам.
MMVU72.3%Сам.
BabyVision38.4%Сам.
ZEROBench-Sub0.34 / 100Сам.
Nuscene14.6%Сам.
ZEROBench0.08 / 100Сам.

Reasoning

CountBench0.98 / 100Сам.
BrowseComp-zh69.5%Сам.
Hallusion Bench67.9%Сам.
ERQA64.8%Сам.
Seal-041.4%Сам.
OJBench36.0%Сам.

Spatial Reasoning

RealWorldQA84.1%Сам.

Vision

ODinW42.6%Сам.

Индексы оценки AA

Math Index
19.0
Intelligence Index
7.4
Math 500
0.9
Aime
0.7
Mmlu Pro
0.7
Gpqa
0.6
Livecodebench
0.4
Ifbench
0.3
Tau2
0.3
Scicode
0.2
Aime 25
0.2
Hle
0.0
Terminalbench Hard
0.0
Lcr
0.0

Оценки категорий LLM Stats

Math
80
Physics
80
Structured Output
80
Image To Text
80
Instruction Following
80
Language
80
Legal
80
Embodied
80
Finance
80
General
80
Biology
80
Text-to-image
80
Video
80
Multimodal
70
Reasoning
70
Spatial Reasoning
70
Long Context
70
Frontend Development
70
Grounding
70
Healthcare
70
Chemistry
70
Vision
70
Search
60
Code
60
Communication
60
Economics
60
Tool Calling
60
Agents
50
3d
20
Spatial
10

Цены

Цена ввода$0.11 / 1M токенов
Цена вывода$1.15 / 1M токенов
Смешанная цена (3:1)$0.37 / 1M токенов

Скорость

Токенов/сек61.4
Задержка первого токена1.35s
Время до первого ответа33.91s

Рейтинг цен провайдеров

Рейтинг цен провайдеров

1 провайдеров

ПровайдерВводВывод
1AlibabaОсновной
$0.11
$1.15

Сравнение цен разных API-провайдеров для этой модели.

Внешние ссылки