メインコンテンツへスキップ

Qwen2-VL-72B-Instruct

Alibaba Cloud / Qwen TeamQwenOpen Weighttongyi-qianwen

説明

An instruction-tuned, large multimodal model that excels at visual understanding and step-by-step reasoning. It supports image and video input, with dynamic resolution handling and improved positional embeddings (M-ROPE), enabling advanced capabilities such as complex problem solving, multilingual text recognition in images, and agent-like interactions in video contexts.

リリース日
2024-08-29
パラメータ
73.4B
コンテキスト長
モダリティ

能力レーダー

60
general
0
coding
70
reasoning
51
science推定
0
agents
90
multimodal

専門的な科学ベンチマークが利用できない場合、Scienceは推論プロキシを使用して推定します。

ランキング

ドメイン#順位スコアソース
Multimodal Ranking36
78.0
LS
Reasoning6
92.0
LS

ベンチマークスコア (LLM Stats)

General

MMVetGPT4Turbo74.0%自己申告
MMMUval64.5%自己申告
MMMU-Pro46.2%自己申告

Image To Text

OCRBench87.7%自己申告
TextVQA85.5%自己申告

Long Context

EgoSchema77.9%自己申告

Math

MathVista-Mini70.5%自己申告

Multimodal

DocVQAtest96.5%自己申告
ChartQA88.3%自己申告
MMBench86.5%自己申告
InfoVQAtest84.5%自己申告
MVBench73.6%自己申告
MTVQA30.9%自己申告

Reasoning

VCR_en_easy91.9%自己申告

Spatial Reasoning

RealWorldQA77.8%自己申告

AA評価指数

AA評価データがありません

LLM Statsカテゴリスコア

Image To Text
90
Spatial Reasoning
80
Vision
80
Long Context
80
Multimodal
80
Video
70
Math
70
Reasoning
70
General
60
Healthcare
60

価格設定

価格データがありません

速度

速度データがありません

利用可能なプロバイダー

(LS内部単位)

プロバイダーデータがありません

外部リンク