跳轉到主要內容

Qwen2.5 VL 7B Instruct

Alibaba Cloud / Qwen TeamQwenOpen WeightApache 2.0 · Commercial OK

描述

Qwen2.5-VL is a vision-language model from the Qwen family. Key enhancements include visual understanding (objects, text, charts, layouts), visual agent capabilities (tool use, computer/phone control), long video comprehension with event pinpointing, visual localization (bounding boxes/points), and structured output generation.

發布日期
2025-01-26
參數規模
8.3B
上下文長度
支援模態

能力雷達圖

50
general
0
coding
50
reasoning
51
science估算
50
agents
90
multimodal

Science 在缺少專門科學評測時使用推理能力代理估算。

排行榜排名

領域#排名分數來源
智能体与工具35
62.0
LS
多模态榜59
71.0
LS
推理能力82
53.0
LS

基準測試分數 (LLM Stats)

Agents

MobileMiniWob++_SR91.4%自報
AITZ_EM81.9%自報
AndroidWorld_SR25.5%自報

General

MMVet67.1%自報
MMStar63.9%自報
MMT-Bench63.6%自報
MMMU58.6%自報
MMMU-Pro38.3%自報

Grounding

ScreenSpot84.7%自報
ScreenSpot Pro29.0%自報

Image To Text

DocVQA95.7%自報
OCRBench86.4%自報
TextVQA84.9%自報

Language

CharadesSTA43.6%自報

Long Context

MLVU70.2%自報
LongVideoBench54.7%自報
LVBench45.3%自報

Math

MathVista-Mini68.2%自報
MathVision25.1%自報

Multimodal

Android Control Low_EM91.4%自報
ChartQA87.3%自報
MMBench84.3%自報
InfoVQA82.6%自報
CC-OCR77.8%自報
TempCompass71.7%自報
VideoMME w sub.71.6%自報
PerceptionTest70.5%自報
MVBench69.6%自報
VideoMME w/o sub.65.1%自報
Android Control High_EM60.1%自報
MMBench-Video1.8%自報

Reasoning

Hallusion Bench52.9%自報

AA 評測指數

暫無 AA 評測資料

LLM Stats 分類評分

Image To Text
90
Structured Output
80
Text-to-image
80
Spatial Reasoning
60
Vision
60
Grounding
60
Healthcare
60
Long Context
60
Multimodal
60
Reasoning
60
Video
50
Agents
50
General
50
Math
50
Language
40

定價

暫無定價資料

速度

暫無速度資料

可用提供商

(LS 內部計價單位)

暫無提供商資料

外部連結