Qwen2.5 VL 7B Instruct

Alibaba Cloud / Qwen TeamQwenOpen WeightApache 2.0 · Uso Comercial

Descripción

Qwen2.5-VL is a vision-language model from the Qwen family. Key enhancements include visual understanding (objects, text, charts, layouts), visual agent capabilities (tool use, computer/phone control), long video comprehension with event pinpointing, visual localization (bounding boxes/points), and structured output generation.

Fecha de lanzamiento

2025-01-26

Parámetros

8.3B

Longitud del contexto

131K

Modalidades

image, text

Radar de capacidades

general

coding

reasoning

scienceest.

agents

multimodal

Science usa un proxy de razonamiento cuando los benchmarks científicos dedicados no están disponibles.

Rankings

Dominio	#Posición	Puntuación	Fuente
Capacidad agéntica	27	62.0	LS
Ranking multimodal	67	71.0	LS
Razonamiento	87	53.0	LS

Puntuaciones de benchmarks (LLM Stats)

Agents

MobileMiniWob++_SR

91.4%Aut.

AITZ_EM

81.9%Aut.

AndroidWorld_SR

25.5%Aut.

General

MMVet

67.1%Aut.

MMStar

63.9%Aut.

MMT-Bench

63.6%Aut.

MMMU

58.6%Aut.

MMMU-Pro

38.3%Aut.

Grounding

ScreenSpot

84.7%Aut.

ScreenSpot Pro

29.0%Aut.

Image To Text

DocVQA

95.7%Aut.

OCRBench

86.4%Aut.

TextVQA

84.9%Aut.

Language

CharadesSTA

43.6%Aut.

Long Context

MLVU

70.2%Aut.

LongVideoBench

54.7%Aut.

LVBench

45.3%Aut.

Math

MathVista-Mini

68.2%Aut.

MathVision

25.1%Aut.

Multimodal

Android Control Low_EM

91.4%Aut.

ChartQA

87.3%Aut.

MMBench

84.3%Aut.

InfoVQA

82.6%Aut.

CC-OCR

77.8%Aut.

TempCompass

71.7%Aut.

VideoMME w sub.

71.6%Aut.

PerceptionTest

70.5%Aut.

MVBench

69.6%Aut.

VideoMME w/o sub.

65.1%Aut.

Android Control High_EM

60.1%Aut.

MMBench-Video

1.8%Aut.

Reasoning

Hallusion Bench

52.9%Aut.

Índices de evaluación AA

No hay datos de evaluación AA disponibles

Puntuaciones por categoría LLM Stats

Image To Text

Structured Output

Text-to-image

Long Context

Multimodal

Reasoning

Spatial Reasoning

Grounding

Healthcare

Vision

Math

General

Agents

Video

Language

Precios

Precio de entrada$0.35 / 1M tokens

Precio de salida$1.05 / 1M tokens

Precio mixto (3:1)$0.525 / 1M tokens

Velocidad

No hay datos de velocidad disponibles

Ranking de Precios por Proveedor

4 proveedores

Más barato: SiliconFlowMás caro: Alibaba

ProveedorEntradaSalida

1SiliconFlowMás barato

$0.05

2Alibaba (China)

$0.287

$0.717

3Alibaba Cloud / Qwen TeamPRINCIPAL

$0.35

$1.05

4Alibaba

$0.35

$1.05

Comparar precios entre diferentes proveedores de API para este modelo.

Fuentes externas

LLM Stats Artificial Analysis