メインコンテンツへスキップ

Qwen2.5 VL 72B Instruct

Alibaba Cloud / Qwen TeamQwenOpen Weighttongyi-qianwen

説明

Qwen2.5-VL is the new flagship vision-language model of Qwen, significantly improved from Qwen2-VL. It excels at recognizing objects, analyzing text/charts/layouts in images, acting as a visual agent, understanding long videos (over 1 hour) with event pinpointing, performing visual localization (bounding boxes/points), and generating structured outputs from documents.

リリース日
2025-01-26
パラメータ
72.0B
コンテキスト長
32K
モダリティ
image, text

能力レーダー

50
general
0
coding
60
reasoning
60
science推定
40
agents
80
multimodal

専門的な科学ベンチマークが利用できない場合、Scienceは推論プロキシを使用して推定します。

ランキング

ドメイン#順位スコアソース
Agents & Tools82
45.0
LS
Multimodal Ranking54
73.0
LS
Reasoning74
55.0
LS

ベンチマークスコア (LLM Stats)

Agents

AITZ_EM83.2%自己申告
MobileMiniWob++_SR68.0%自己申告
AndroidWorld_SR35.0%自己申告
OSWorld8.8%自己申告

General

MMVet76.2%自己申告
MLVU-M74.6%自己申告
MMStar70.8%自己申告
MMMU70.2%自己申告
MMMU-Pro51.1%自己申告

Grounding

ScreenSpot87.1%自己申告
ScreenSpot Pro43.6%自己申告

Image To Text

DocVQA96.4%自己申告
OCRBench88.5%自己申告
OCRBench-V2 (en)61.5%自己申告

Long Context

EgoSchema76.2%自己申告
LVBench47.3%自己申告

Math

MathVista-Mini74.8%自己申告
MathVision38.1%自己申告

Multimodal

Android Control Low_EM93.7%自己申告
ChartQA89.5%自己申告
AI2D88.4%自己申告
MMBench88.0%自己申告
CC-OCR79.8%自己申告
TempCompass74.8%自己申告
VideoMME w/o sub.73.3%自己申告
PerceptionTest73.2%自己申告
MVBench70.4%自己申告
Android Control High_EM67.4%自己申告
MMBench-Video2.0%自己申告

Reasoning

Hallusion Bench55.2%自己申告

AA評価指数

AA評価データがありません

LLM Statsカテゴリスコア

Structured Output
80
Text-to-image
80
Image To Text
80
Spatial Reasoning
70
Grounding
70
Healthcare
70
Reasoning
70
Vision
60
Long Context
60
Math
60
Multimodal
60
Video
50
General
50
Agents
40

価格設定

入力価格$0.25 / 1M tokens
出力価格$0.75 / 1M tokens
混合価格(3:1)$0.375 / 1M tokens

速度

速度データがありません

利用可能なプロバイダー

(LS内部単位)

プロバイダーデータがありません

外部リンク