Qwen2.5 VL 7B Instruct

Alibaba Cloud / Qwen TeamQwenオープンウエイトApache 2.0 · 商用利用可

説明

Qwen2.5-VL is a vision-language model from the Qwen family. Key enhancements include visual understanding (objects, text, charts, layouts), visual agent capabilities (tool use, computer/phone control), long video comprehension with event pinpointing, visual localization (bounding boxes/points), and structured output generation.

リリース日

2025-01-26

パラメータ

8.3B

コンテキスト長

131K

モダリティ

image, text

能力レーダー

general

coding

reasoning

science推定

agents

multimodal

専門的な科学ベンチマークが利用できない場合、Scienceは推論プロキシを使用して推定します。

ベンチマークスコア (LLM Stats)

Agents

MobileMiniWob++_SR

91.4%自己申告

AITZ_EM

81.9%自己申告

AndroidWorld_SR

25.5%自己申告

General

MMVet

67.1%自己申告

MMStar

63.9%自己申告

MMT-Bench

63.6%自己申告

MMMU

58.6%自己申告

MMMU-Pro

38.3%自己申告

Grounding

ScreenSpot

84.7%自己申告

ScreenSpot Pro

29.0%自己申告

Image To Text

DocVQA

95.7%自己申告

OCRBench

86.4%自己申告

TextVQA

84.9%自己申告

Language

CharadesSTA

43.6%自己申告

Long Context

MLVU

70.2%自己申告

LongVideoBench

54.7%自己申告

LVBench

45.3%自己申告

Math

MathVista-Mini

68.2%自己申告

MathVision

25.1%自己申告

Multimodal

Android Control Low_EM

91.4%自己申告

ChartQA

87.3%自己申告

MMBench

84.3%自己申告

InfoVQA

82.6%自己申告

CC-OCR

77.8%自己申告

TempCompass

71.7%自己申告

VideoMME w sub.

71.6%自己申告

PerceptionTest

70.5%自己申告

MVBench

69.6%自己申告

VideoMME w/o sub.

65.1%自己申告

Android Control High_EM

60.1%自己申告

MMBench-Video

1.8%自己申告

Reasoning

Hallusion Bench

52.9%自己申告

AA評価指数

AA評価データがありません

LLM Statsカテゴリスコア

Image To Text

Structured Output

Text-to-image

Long Context

Multimodal

Reasoning

Spatial Reasoning

Grounding

Healthcare

Vision

Math

General

Agents

Video

Language

価格設定

入力価格$0.35 / 1Mトークン

出力価格$1.05 / 1Mトークン

混合価格（3:1）$0.525 / 1Mトークン

速度

速度データがありません

プロバイダー価格ランキング

4 プロバイダー

最安: SiliconFlow最高: Alibaba

プロバイダー入力出力

1SiliconFlow最安

$0.05

2Alibaba (China)

$0.287

$0.717

3Alibaba Cloud / Qwen Teamプライマリ

$0.35

$1.05

4Alibaba

$0.35

$1.05

このモデルの異なるAPIプロバイダー間の価格を比較。

外部リンク

LLM Stats Artificial Analysis

ドメイン	#順位	スコア	ソース
エージェント能力	27	62.0	LS
マルチモーダルランキング	67	71.0	LS
推論	87	53.0	LS