Qwen3 VL 235B A22B (Reasoning)

AlibabaQwenOpen WeightApache 2.0 · Usage Commercial

Description

Qwen3-VL-235B-A22B-Thinking is the most powerful vision-language model in the Qwen series, featuring 236B parameters with MoE architecture for reasoning-enhanced multimodal understanding. Key capabilities include: Visual Agent (operates PC/mobile GUIs, recognizes elements, invokes tools), Visual Coding (generates Draw.io/HTML/CSS/JS from images/videos), Advanced Spatial Perception (2D grounding and 3D grounding for spatial reasoning and embodied AI), Long Context & Video Understanding (native 256K context expandable to 1M, handles hours-long video with second-level indexing), Enhanced Multimodal Reasoning (excels in STEM/Math with causal analysis), Upgraded Visual Recognition (celebrities, anime, products, landmarks, flora/fauna), and Expanded OCR (32 languages, robust in low light/blur/tilt). Architecture innovations include Interleaved-MRoPE for positional embeddings, DeepStack for multi-level ViT feature fusion, and Text-Timestamp Alignment for precise video temporal modeling.

Date de sortie

2025-09-23

Paramètres

236.0B

Longueur du contexte

131K

Modalités

image, text, video

Radar de capacités

general

coding

reasoning

scienceest.

agents

100

multimodal

Science utilise un proxy de raisonnement lorsque les benchmarks scientifiques dédiés ne sont pas disponibles.

Classements

Domaine	#Rang	Score	Source
Capacité agentique	19	66.0	LS
Classement codage	158	55.0	AA
Classement général	165	55.0	AA
Raisonnement mathématique	49	89.0	AA
Classement multimodal	73	67.0	LS
Raisonnement	40	75.0	LS
Science	155	54.0	AA

Scores de benchmarks (LLM Stats)

3d

Objectron

0.71 / 100Aut.

BLINK

67.1%Aut.

ARKitScenes

0.54 / 100Aut.

SUNRGBD

0.35 / 100Aut.

Hypersim

0.11 / 100Aut.

Agents

SIFO

0.77 / 100Aut.

BFCL-v3

71.9%Aut.

SIFO-Multiturn

0.71 / 100Aut.

OSWorld-G

0.68 / 100Aut.

OSWorld

38.1%Aut.

Chemistry

SuperGPQA

64.3%Aut.

Code

Design2Code

0.93 / 100Aut.

Communication

MM-MT-Bench

8.50 / 100Aut.

WritingBench

86.7%Aut.

Multi-IF

79.1%Aut.

Creativity

Creative Writing v3

85.7%Aut.

Embodied

EmbSpatialBench

0.84 / 100Aut.

RoboSpatialHome

0.74 / 100Aut.

Factuality

SimpleQA

44.4%Aut.

Finance

MMLU

90.6%Aut.

MMLU-Pro

83.8%Aut.

MMLU-ProX

80.6%Aut.

General

MMLU-Redux

93.7%Aut.

IFEval

88.2%Aut.

MMMUval

80.6%Aut.

Include

80.0%Aut.

LiveBench 20241125

79.6%Aut.

MMStar

78.7%Aut.

LiveCodeBench v6

70.1%Aut.

MMMU-Pro

69.3%Aut.

SimpleVQA

0.61 / 100Aut.

Grounding

ScreenSpot

95.4%Aut.

RefCOCO-avg

0.92 / 100Aut.

RefSpatialBench

0.70 / 100Aut.

ScreenSpot Pro

61.8%Aut.

Healthcare

VideoMMMU

80.0%Aut.

Image To Text

OCRBench

87.5%Aut.

OCRBench-V2 (en)

66.8%Aut.

OCRBench-V2 (zh)

63.5%Aut.

Instruction Following

MIABench

0.93 / 100Aut.

Language

CharadesSTA

63.5%Aut.

Long Context

MLVU

83.8%Aut.

LVBench

63.6%Aut.

MMLongBench-Doc

0.56 / 100Aut.

Math

AIME 2025

89.7%Aut.

MathVista-Mini

85.8%Aut.

MathVerse-Mini

0.85 / 100Aut.

HMMT25

77.4%Aut.

MathVision

74.6%Aut.

Humanity's Last Exam

13.6%Aut.

Multimodal

DocVQAtest

96.5%Aut.

MMBench-V1.1

90.6%Aut.

InfoVQAtest

89.5%Aut.

AI2D

89.2%Aut.

CC-OCR

81.5%Aut.

MuirBench

80.1%Aut.

VideoMME w/o sub.

79.0%Aut.

CharXiv-R

66.1%Aut.

VisuLogic

0.34 / 100Aut.

ZEROBench-Sub

0.28 / 100Aut.

ZEROBench

0.04 / 100Aut.

Reasoning

ZebraLogic

97.3%Aut.

CountBench

0.94 / 100Aut.

Hallusion Bench

66.7%Aut.

ERQA

52.5%Aut.

Spatial Reasoning

RealWorldQA

81.3%Aut.

Vision

ODinW

43.2%Aut.

Indices d'évaluation AA

Math Index

88.3

Intelligence Index

20.6

Aime 25

0.9

Mmlu Pro

0.8

Gpqa

0.8

Livecodebench

0.6

Lcr

0.6

Ifbench

0.6

Tau2

0.5

Scicode

0.4

Terminalbench Hard

0.1

Hle

0.1

Scores par catégorie LLM Stats

Communication

Multimodal

100

Creativity

Writing

Instruction Following

Language

Legal

Math

Structured Output

Embodied

Finance

Grounding

Healthcare

Text-to-image

Video

Image To Text

Long Context

Reasoning

Spatial Reasoning

General

Tool Calling

Vision

Physics

Agents

Chemistry

Economics

Factuality

Tarification

Prix d'entrée$0.84 / 1M tokens

Prix de sortie$6.175 / 1M tokens

Prix mixte (3:1)$2.174 / 1M tokens

Vitesse

Tokens/sec57.2

Délai du premier token1.16s

Temps de réponse36.11s

Classement des Prix par Fournisseur

10 fournisseurs

Moins cher: Venice AIPlus cher: NovitaAI

FournisseurEntréeSortie

1Venice AIMoins cher

$0.25

$1.5

2OpenRouter

$0.26

$2.6

3Kilo Gateway

$0.26

$2.6

4Alibaba (China)

$0.28671

$1.14682

5SiliconFlow (China)

$0.45

$3.5

6SiliconFlow

$0.45

$3.5

7NanoGPT

$0.5

8LLM Gateway

$0.5

9Alibaba

$0.7

$2.8

10NovitaAI

$0.98

$3.95

Comparer les prix entre différents fournisseurs API pour ce modèle.

Sources externes

LLM Stats Artificial Analysis