Qwen2.5 VL 32B Instruct

Alibaba Cloud / Qwen TeamQwen오픈 웨이트Apache 2.0 · 상업적 사용 가능

설명

Qwen2.5-VL is a vision-language model from the Qwen family. Key enhancements include visual understanding (objects, text, charts, layouts), visual agent capabilities (tool use, computer/phone control), long video comprehension with event pinpointing, visual localization (bounding boxes/points), and structured output generation.

출시일

2025-02-28

파라미터

33.5B

컨텍스트 길이

—

모달리티

—

능력 레이더

general

coding

reasoning

science추정

agents

multimodal

전용 과학 벤치마크가 없을 때 Science는 추론 프록시를 사용하여 추정합니다.

랭킹

도메인	#순위	점수	소스
에이전트형 역량	115	33.0	LS
멀티모달 랭킹	74	66.0	LS

벤치마크 점수 (LLM Stats)

Agents

AITZ_EM

83.1%자체 보고

AndroidWorld_SR

22.0%자체 보고

OSWorld

5.9%자체 보고

Biology

GPQA

46.0%자체 보고

Code

HumanEval

91.5%자체 보고

Finance

MMLU

78.4%자체 보고

MMLU-Pro

68.8%자체 보고

General

MBPP

0.84 / 100자체 보고

MMMU

70.0%자체 보고

MMStar

69.5%자체 보고

MMMU-Pro

49.5%자체 보고

Grounding

ScreenSpot

88.5%자체 보고

ScreenSpot Pro

39.4%자체 보고

Image To Text

DocVQA

94.8%자체 보고

OCRBench-V2 (zh)

59.1%자체 보고

OCRBench-V2 (en)

57.2%자체 보고

Language

CharadesSTA

54.2%자체 보고

Long Context

LVBench

49.0%자체 보고

Math

MATH

82.2%자체 보고

MathVista-Mini

74.7%자체 보고

MathVision

38.4%자체 보고

Multimodal

Android Control Low_EM

93.3%자체 보고

InfoVQA

83.4%자체 보고

VideoMME w sub.

77.9%자체 보고

CC-OCR

77.1%자체 보고

VideoMME w/o sub.

70.5%자체 보고

Android Control High_EM

69.6%자체 보고

MMBench-Video

1.9%자체 보고

AA 평가 지수

AA 평가 데이터가 없습니다

LLM Stats 카테고리 점수

Code

Structured Output

Text-to-image

Image To Text

Language

Legal

Math

Finance

Healthcare

Multimodal

Reasoning

Spatial Reasoning

Grounding

Vision

Long Context

Physics

General

Biology

Chemistry

Video

Agents

가격

가격 데이터가 없습니다

속도

속도 데이터가 없습니다

공급자 가격 순위

6개 공급자

최저가: IO.NET최고가: LLM Gateway

공급자입력출력

1IO.NET최저가

$0.05

$0.22

2Chutes

$0.0543

$0.2174

3Meganova

$0.2

$0.6

4SiliconFlow (China)

$0.27

5SiliconFlow

$0.27

6LLM Gateway

$1.4

$4.2

이 모델의 다양한 API 공급자 간 가격 비교.

외부 링크

LLM Stats Artificial Analysis