Qwen3 Max Thinking (Preview)
AlibabaQwen
Date de sortie
2025-11-03
Paramètres
—
Longueur du contexte
262K
Modalités
audio, image, text, video
Radar de capacités
40
general
50
coding
82
reasoning
51
scienceest.
60
agents
80
multimodal
Science utilise un proxy de raisonnement lorsque les benchmarks scientifiques dédiés ne sont pas disponibles.
Classements
| Domaine | #Rang | Score | Source |
|---|---|---|---|
| Classement codage | 166 | 54.0 | AA |
| Classement général | 107 | 63.0 | AA |
| Raisonnement mathématique | 74 | 83.0 | AA |
| Science | 149 | 55.0 | AA |
Scores de benchmarks (LLM Stats)
3d
SUNRGBD
0.33 / 100Aut.
Hypersim
0.13 / 100Aut.
Agents
t2-bench
81.2%Aut.
AndroidWorld_SR
71.1%Aut.
BFCL-V4
67.3%Aut.
BrowseComp
61.0%Aut.
FullStackBench en
58.1%Aut.
WideSearch
57.1%Aut.
TIR-Bench
55.5%Aut.
FullStackBench zh
55.0%Aut.
OSWorld-Verified
54.5%Aut.
Terminal-Bench 2.0
40.5%Aut.
VITA-Bench
31.9%Aut.
DeepPlanning
22.8%Aut.
Biology
GPQA
84.2%Aut.
Chemistry
SuperGPQA
63.4%Aut.
Code
SWE-Bench Verified
69.2%Aut.
Communication
Multi-Challenge
60.0%Aut.
Embodied
EmbSpatialBench
0.83 / 100Aut.
Finance
MMLU-Pro
85.3%Aut.
MMLU-ProX
81.0%Aut.
General
MMLU-Redux
93.3%Aut.
IFEval
91.9%Aut.
C-Eval
90.2%Aut.
MAXIFE
86.6%Aut.
Global PIQA
86.6%Aut.
MMMLU
85.2%Aut.
MMStar
81.9%Aut.
MMMU
81.4%Aut.
Include
79.7%Aut.
MMMU-Pro
75.1%Aut.
LiveCodeBench v6
74.6%Aut.
IFBench
70.2%Aut.
LongBench v2
59.0%Aut.
SimpleVQA
0.58 / 100Aut.
NOVA-63
57.1%Aut.
Grounding
RefCOCO-avg
0.89 / 100Aut.
ScreenSpot Pro
68.6%Aut.
RefSpatialBench
0.64 / 100Aut.
Healthcare
VideoMMMU
80.4%Aut.
SlakeVQA
78.7%Aut.
PMC-VQA
62.0%Aut.
MedXpertQA
61.4%Aut.
Image To Text
OCRBench
91.0%Aut.
Language
LingoQA
79.2%Aut.
WMT24++
76.3%Aut.
Long Context
MLVU
85.6%Aut.
LVBench
71.4%Aut.
MMLongBench-Doc
0.59 / 100Aut.
AA-LCR
58.5%Aut.
Math
HMMT25
89.2%Aut.
HMMT 2025
89.0%Aut.
MathVista-Mini
86.2%Aut.
DynaMath
85.0%Aut.
MathVision
83.9%Aut.
CodeForces
0.82 / 3000Aut.
PolyMATH
64.4%Aut.
Humanity's Last Exam
47.4%Aut.
Multimodal
VLMsAreBlind
97.0%Aut.
V*
92.7%Aut.
AI2D
92.6%Aut.
MMBench-V1.1
91.5%Aut.
OmniDocBench 1.5
89.3%Aut.
VideoMME w sub.
86.6%Aut.
VideoMME w/o sub.
82.5%Aut.
CC-OCR
80.7%Aut.
CharXiv-R
77.5%Aut.
MVBench
74.8%Aut.
MMVU
72.3%Aut.
BabyVision
38.4%Aut.
ZEROBench-Sub
0.34 / 100Aut.
Nuscene
14.6%Aut.
ZEROBench
0.08 / 100Aut.
Reasoning
CountBench
0.98 / 100Aut.
BrowseComp-zh
69.5%Aut.
Hallusion Bench
67.9%Aut.
ERQA
64.8%Aut.
Seal-0
41.4%Aut.
OJBench
36.0%Aut.
Spatial Reasoning
RealWorldQA
84.1%Aut.
Vision
ODinW
42.6%Aut.
Indices d'évaluation AA
Math Index82.3
Intelligence Index25.0
Tau20.8
Mmlu Pro0.8
Aime 250.8
Gpqa0.8
Lcr0.6
Ifbench0.5
Livecodebench0.5
Scicode0.4
Terminalbench Hard0.2
Hle0.1
Scores par catégorie LLM Stats
Image To Text80
Instruction Following80
Language80
Legal80
Math80
Physics80
Structured Output80
Embodied80
Finance80
General80
Biology80
Text-to-image80
Video80
Long Context70
Multimodal70
Reasoning70
Spatial Reasoning70
Frontend Development70
Grounding70
Healthcare70
Chemistry70
Vision70
Search60
Code60
Communication60
Economics60
Tool Calling60
Agents50
3d20
Spatial10
Tarification
Prix d'entrée$1.2 / 1M tokens
Prix de sortie$6 / 1M tokens
Prix mixte (3:1)$2.4 / 1M tokens
Vitesse
Tokens/sec50.0
Délai du premier token1.90s
Temps de réponse41.89s
Classement des Prix par Fournisseur
Classement des Prix par Fournisseur
4 fournisseurs
Moins cher: OpenRouterPlus cher: Vercel AI Gateway
FournisseurEntréeSortie
1OpenRouterMoins cher
$0.78
$3.9
2Kilo Gateway
$0.78
$3.9
3AlibabaPRINCIPAL
$1.2
$6
4Vercel AI Gateway
$1.2
$6
Comparer les prix entre différents fournisseurs API pour ce modèle.