Перейти к основному содержанию

Qwen2.5 VL 32B Instruct

Alibaba Cloud / Qwen TeamQwenOpen WeightApache 2.0 · Commercial OK

Описание

Qwen2.5-VL is a vision-language model from the Qwen family. Key enhancements include visual understanding (objects, text, charts, layouts), visual agent capabilities (tool use, computer/phone control), long video comprehension with event pinpointing, visual localization (bounding boxes/points), and structured output generation.

Дата выхода
2025-02-28
Параметры
33.5B
Длина контекста
Модальности

Радар способностей

50
general
90
coding
70
reasoning
43
scienceоцен.
40
agents
70
multimodal

Science использует прокси на основе рассуждений, когда специализированные научные бенчмарки недоступны.

Рейтинги

Домен#МестоОценкаИсточник
Agents & Tools94
33.0
LS
Multimodal Ranking65
66.0
LS

Оценки бенчмарков (LLM Stats)

Agents

AITZ_EM83.1%Сам.
AndroidWorld_SR22.0%Сам.
OSWorld5.9%Сам.

Biology

GPQA46.0%Сам.

Code

HumanEval91.5%Сам.

Finance

MMLU78.4%Сам.
MMLU-Pro68.8%Сам.

General

MBPP0.84 / 100Сам.
MMMU70.0%Сам.
MMStar69.5%Сам.
MMMU-Pro49.5%Сам.

Grounding

ScreenSpot88.5%Сам.
ScreenSpot Pro39.4%Сам.

Image To Text

DocVQA94.8%Сам.
OCRBench-V2 (zh)59.1%Сам.
OCRBench-V2 (en)57.2%Сам.

Language

CharadesSTA54.2%Сам.

Long Context

LVBench49.0%Сам.

Math

MATH82.2%Сам.
MathVista-Mini74.7%Сам.
MathVision38.4%Сам.

Multimodal

Android Control Low_EM93.3%Сам.
InfoVQA83.4%Сам.
VideoMME w sub.77.9%Сам.
CC-OCR77.1%Сам.
VideoMME w/o sub.70.5%Сам.
Android Control High_EM69.6%Сам.
MMBench-Video1.9%Сам.

Индексы оценки AA

Нет данных AA оценки

Оценки категорий LLM Stats

Code
90
Structured Output
80
Text-to-image
80
Finance
70
Healthcare
70
Image To Text
70
Language
70
Legal
70
Math
70
Spatial Reasoning
60
Vision
60
Grounding
60
Multimodal
60
Reasoning
60
Video
50
Biology
50
Chemistry
50
General
50
Long Context
50
Physics
50
Agents
40

Цены

Нет данных о ценах

Скорость

Нет данных о скорости

Доступные провайдеры

(Внутренние единицы LS)

Нет данных провайдеров

Внешние ссылки