メインコンテンツへスキップ

Qwen2.5 VL 7B Instruct

Alibaba Cloud / Qwen TeamQwenOpen WeightApache 2.0 · Commercial OK

説明

Qwen2.5-VL is a vision-language model from the Qwen family. Key enhancements include visual understanding (objects, text, charts, layouts), visual agent capabilities (tool use, computer/phone control), long video comprehension with event pinpointing, visual localization (bounding boxes/points), and structured output generation.

リリース日
2025-01-26
パラメータ
8.3B
コンテキスト長
モダリティ

能力レーダー

50
general
0
coding
50
reasoning
51
science推定
50
agents
90
multimodal

専門的な科学ベンチマークが利用できない場合、Scienceは推論プロキシを使用して推定します。

ランキング

ドメイン#順位スコアソース
Agents & Tools35
62.0
LS
Multimodal Ranking59
71.0
LS
Reasoning82
53.0
LS

ベンチマークスコア (LLM Stats)

Agents

MobileMiniWob++_SR91.4%自己申告
AITZ_EM81.9%自己申告
AndroidWorld_SR25.5%自己申告

General

MMVet67.1%自己申告
MMStar63.9%自己申告
MMT-Bench63.6%自己申告
MMMU58.6%自己申告
MMMU-Pro38.3%自己申告

Grounding

ScreenSpot84.7%自己申告
ScreenSpot Pro29.0%自己申告

Image To Text

DocVQA95.7%自己申告
OCRBench86.4%自己申告
TextVQA84.9%自己申告

Language

CharadesSTA43.6%自己申告

Long Context

MLVU70.2%自己申告
LongVideoBench54.7%自己申告
LVBench45.3%自己申告

Math

MathVista-Mini68.2%自己申告
MathVision25.1%自己申告

Multimodal

Android Control Low_EM91.4%自己申告
ChartQA87.3%自己申告
MMBench84.3%自己申告
InfoVQA82.6%自己申告
CC-OCR77.8%自己申告
TempCompass71.7%自己申告
VideoMME w sub.71.6%自己申告
PerceptionTest70.5%自己申告
MVBench69.6%自己申告
VideoMME w/o sub.65.1%自己申告
Android Control High_EM60.1%自己申告
MMBench-Video1.8%自己申告

Reasoning

Hallusion Bench52.9%自己申告

AA評価指数

AA評価データがありません

LLM Statsカテゴリスコア

Image To Text
90
Structured Output
80
Text-to-image
80
Spatial Reasoning
60
Vision
60
Grounding
60
Healthcare
60
Long Context
60
Multimodal
60
Reasoning
60
Video
50
Agents
50
General
50
Math
50
Language
40

価格設定

価格データがありません

速度

速度データがありません

利用可能なプロバイダー

(LS内部単位)

プロバイダーデータがありません

外部リンク