Qwen2.5 VL 7B Instruct
Alibaba Cloud / Qwen TeamQwen오픈 웨이트Apache 2.0 · 상업적 사용 가능
설명
Qwen2.5-VL is a vision-language model from the Qwen family. Key enhancements include visual understanding (objects, text, charts, layouts), visual agent capabilities (tool use, computer/phone control), long video comprehension with event pinpointing, visual localization (bounding boxes/points), and structured output generation.
출시일
2025-01-26
파라미터
8.3B
컨텍스트 길이
131K
모달리티
image, text
능력 레이더
50
general
0
coding
50
reasoning
51
science추정
50
agents
90
multimodal
전용 과학 벤치마크가 없을 때 Science는 추론 프록시를 사용하여 추정합니다.
랭킹
벤치마크 점수 (LLM Stats)
Agents
MobileMiniWob++_SR
91.4%자체 보고
AITZ_EM
81.9%자체 보고
AndroidWorld_SR
25.5%자체 보고
General
MMVet
67.1%자체 보고
MMStar
63.9%자체 보고
MMT-Bench
63.6%자체 보고
MMMU
58.6%자체 보고
MMMU-Pro
38.3%자체 보고
Grounding
ScreenSpot
84.7%자체 보고
ScreenSpot Pro
29.0%자체 보고
Image To Text
DocVQA
95.7%자체 보고
OCRBench
86.4%자체 보고
TextVQA
84.9%자체 보고
Language
CharadesSTA
43.6%자체 보고
Long Context
MLVU
70.2%자체 보고
LongVideoBench
54.7%자체 보고
LVBench
45.3%자체 보고
Math
MathVista-Mini
68.2%자체 보고
MathVision
25.1%자체 보고
Multimodal
Android Control Low_EM
91.4%자체 보고
ChartQA
87.3%자체 보고
MMBench
84.3%자체 보고
InfoVQA
82.6%자체 보고
CC-OCR
77.8%자체 보고
TempCompass
71.7%자체 보고
VideoMME w sub.
71.6%자체 보고
PerceptionTest
70.5%자체 보고
MVBench
69.6%자체 보고
VideoMME w/o sub.
65.1%자체 보고
Android Control High_EM
60.1%자체 보고
MMBench-Video
1.8%자체 보고
Reasoning
Hallusion Bench
52.9%자체 보고
AA 평가 지수
AA 평가 데이터가 없습니다
LLM Stats 카테고리 점수
Image To Text90
Structured Output80
Text-to-image80
Long Context60
Multimodal60
Reasoning60
Spatial Reasoning60
Grounding60
Healthcare60
Vision60
Math50
General50
Agents50
Video50
Language40
가격
입력 가격$0.35 / 1M 토큰
출력 가격$1.05 / 1M 토큰
혼합 가격 (3:1)$0.525 / 1M 토큰
속도
속도 데이터가 없습니다
공급자 가격 순위
공급자 가격 순위
4개 공급자
최저가: SiliconFlow최고가: Alibaba
공급자입력출력
1SiliconFlow최저가
$0.05
$0.05
2Alibaba (China)
$0.287
$0.717
3Alibaba Cloud / Qwen Team주요
$0.35
$1.05
4Alibaba
$0.35
$1.05
이 모델의 다양한 API 공급자 간 가격 비교.