Qwen2-VL-72B-Instruct
Alibaba Cloud / Qwen TeamQwenOpen Weighttongyi-qianwen
説明
An instruction-tuned, large multimodal model that excels at visual understanding and step-by-step reasoning. It supports image and video input, with dynamic resolution handling and improved positional embeddings (M-ROPE), enabling advanced capabilities such as complex problem solving, multilingual text recognition in images, and agent-like interactions in video contexts.
リリース日
2024-08-29
パラメータ
73.4B
コンテキスト長
—
モダリティ
—
能力レーダー
60
general
0
coding
70
reasoning
51
science推定
0
agents
90
multimodal
専門的な科学ベンチマークが利用できない場合、Scienceは推論プロキシを使用して推定します。
ランキング
| ドメイン | #順位 | スコア | ソース |
|---|---|---|---|
| Multimodal Ranking | 36 | 78.0 | LS |
| Reasoning | 6 | 92.0 | LS |
ベンチマークスコア (LLM Stats)
General
MMVetGPT4Turbo
74.0%自己申告
MMMUval
64.5%自己申告
MMMU-Pro
46.2%自己申告
Image To Text
OCRBench
87.7%自己申告
TextVQA
85.5%自己申告
Long Context
EgoSchema
77.9%自己申告
Math
MathVista-Mini
70.5%自己申告
Multimodal
DocVQAtest
96.5%自己申告
ChartQA
88.3%自己申告
MMBench
86.5%自己申告
InfoVQAtest
84.5%自己申告
MVBench
73.6%自己申告
MTVQA
30.9%自己申告
Reasoning
VCR_en_easy
91.9%自己申告
Spatial Reasoning
RealWorldQA
77.8%自己申告
AA評価指数
AA評価データがありません
LLM Statsカテゴリスコア
Image To Text90
Spatial Reasoning80
Vision80
Long Context80
Multimodal80
Video70
Math70
Reasoning70
General60
Healthcare60
価格設定
価格データがありません
速度
速度データがありません
利用可能なプロバイダー
(LS内部単位)プロバイダーデータがありません