跳轉到主要內容

Qwen2.5 VL 32B Instruct

Alibaba Cloud / Qwen TeamQwen開源權重Apache 2.0 · 商用許可

描述

Qwen2.5-VL is a vision-language model from the Qwen family. Key enhancements include visual understanding (objects, text, charts, layouts), visual agent capabilities (tool use, computer/phone control), long video comprehension with event pinpointing, visual localization (bounding boxes/points), and structured output generation.

發布日期
2025-02-28
參數規模
33.5B
上下文長度
支援模態

能力雷達圖

50
general
90
coding
70
reasoning
43
science估算
40
agents
70
multimodal

Science 在缺少專門科學評測時使用推理能力代理估算。

排行榜排名

領域#排名分數來源
智慧體能力模型榜115
33.0
LS
多模態榜74
66.0
LS

基準測試分數 (LLM Stats)

Agents

AITZ_EM83.1%自報
AndroidWorld_SR22.0%自報
OSWorld5.9%自報

Biology

GPQA46.0%自報

Code

HumanEval91.5%自報

Finance

MMLU78.4%自報
MMLU-Pro68.8%自報

General

MBPP0.84 / 100自報
MMMU70.0%自報
MMStar69.5%自報
MMMU-Pro49.5%自報

Grounding

ScreenSpot88.5%自報
ScreenSpot Pro39.4%自報

Image To Text

DocVQA94.8%自報
OCRBench-V2 (zh)59.1%自報
OCRBench-V2 (en)57.2%自報

Language

CharadesSTA54.2%自報

Long Context

LVBench49.0%自報

Math

MATH82.2%自報
MathVista-Mini74.7%自報
MathVision38.4%自報

Multimodal

Android Control Low_EM93.3%自報
InfoVQA83.4%自報
VideoMME w sub.77.9%自報
CC-OCR77.1%自報
VideoMME w/o sub.70.5%自報
Android Control High_EM69.6%自報
MMBench-Video1.9%自報

AA 評測指數

暫無 AA 評測資料

LLM Stats 分類評分

Code
90
Structured Output
80
Text-to-image
80
Image To Text
70
Language
70
Legal
70
Math
70
Finance
70
Healthcare
70
Multimodal
60
Reasoning
60
Spatial Reasoning
60
Grounding
60
Vision
60
Long Context
50
Physics
50
General
50
Biology
50
Chemistry
50
Video
50
Agents
40

定價

暫無定價資料

速度

暫無速度資料

供應商價格排行

供應商價格排行

6 個供應商

最便宜: IO.NET最貴: LLM Gateway
供應商輸入輸出
1IO.NET最便宜
$0.05
$0.22
2Chutes
$0.0543
$0.2174
3Meganova
$0.2
$0.6
4SiliconFlow (China)
$0.27
$0.27
5SiliconFlow
$0.27
$0.27
6LLM Gateway
$1.4
$4.2

比較該模型在不同 API 供應商之間的定價。

外部連結