메인 콘텐츠로 건너뛰기

Qwen2.5 VL 32B Instruct

Alibaba Cloud / Qwen TeamQwen오픈 웨이트Apache 2.0 · 상업적 사용 가능

설명

Qwen2.5-VL is a vision-language model from the Qwen family. Key enhancements include visual understanding (objects, text, charts, layouts), visual agent capabilities (tool use, computer/phone control), long video comprehension with event pinpointing, visual localization (bounding boxes/points), and structured output generation.

출시일
2025-02-28
파라미터
33.5B
컨텍스트 길이
모달리티

능력 레이더

50
general
90
coding
70
reasoning
43
science추정
40
agents
70
multimodal

전용 과학 벤치마크가 없을 때 Science는 추론 프록시를 사용하여 추정합니다.

랭킹

도메인#순위점수소스
에이전트형 역량115
33.0
LS
멀티모달 랭킹74
66.0
LS

벤치마크 점수 (LLM Stats)

Agents

AITZ_EM83.1%자체 보고
AndroidWorld_SR22.0%자체 보고
OSWorld5.9%자체 보고

Biology

GPQA46.0%자체 보고

Code

HumanEval91.5%자체 보고

Finance

MMLU78.4%자체 보고
MMLU-Pro68.8%자체 보고

General

MBPP0.84 / 100자체 보고
MMMU70.0%자체 보고
MMStar69.5%자체 보고
MMMU-Pro49.5%자체 보고

Grounding

ScreenSpot88.5%자체 보고
ScreenSpot Pro39.4%자체 보고

Image To Text

DocVQA94.8%자체 보고
OCRBench-V2 (zh)59.1%자체 보고
OCRBench-V2 (en)57.2%자체 보고

Language

CharadesSTA54.2%자체 보고

Long Context

LVBench49.0%자체 보고

Math

MATH82.2%자체 보고
MathVista-Mini74.7%자체 보고
MathVision38.4%자체 보고

Multimodal

Android Control Low_EM93.3%자체 보고
InfoVQA83.4%자체 보고
VideoMME w sub.77.9%자체 보고
CC-OCR77.1%자체 보고
VideoMME w/o sub.70.5%자체 보고
Android Control High_EM69.6%자체 보고
MMBench-Video1.9%자체 보고

AA 평가 지수

AA 평가 데이터가 없습니다

LLM Stats 카테고리 점수

Code
90
Structured Output
80
Text-to-image
80
Image To Text
70
Language
70
Legal
70
Math
70
Finance
70
Healthcare
70
Multimodal
60
Reasoning
60
Spatial Reasoning
60
Grounding
60
Vision
60
Long Context
50
Physics
50
General
50
Biology
50
Chemistry
50
Video
50
Agents
40

가격

가격 데이터가 없습니다

속도

속도 데이터가 없습니다

공급자 가격 순위

공급자 가격 순위

6개 공급자

최저가: IO.NET최고가: LLM Gateway
공급자입력출력
1IO.NET최저가
$0.05
$0.22
2Chutes
$0.0543
$0.2174
3Meganova
$0.2
$0.6
4SiliconFlow (China)
$0.27
$0.27
5SiliconFlow
$0.27
$0.27
6LLM Gateway
$1.4
$4.2

이 모델의 다양한 API 공급자 간 가격 비교.

외부 링크