Qwen2.5 VL 72B Instruct

Alibaba Cloud / Qwen TeamQwenOpen Weighttongyi-qianwen

Descripción

Qwen2.5-VL is the new flagship vision-language model of Qwen, significantly improved from Qwen2-VL. It excels at recognizing objects, analyzing text/charts/layouts in images, acting as a visual agent, understanding long videos (over 1 hour) with event pinpointing, performing visual localization (bounding boxes/points), and generating structured outputs from documents.

Fecha de lanzamiento

2025-01-26

Parámetros

72.0B

Longitud del contexto

131K

Modalidades

image, text

Radar de capacidades

general

coding

reasoning

scienceest.

agents

multimodal

Science usa un proxy de razonamiento cuando los benchmarks científicos dedicados no están disponibles.

Rankings

Dominio	#Posición	Puntuación	Fuente
Capacidad agéntica	98	45.0	LS
Ranking multimodal	59	73.0	LS
Razonamiento	79	55.0	LS

Puntuaciones de benchmarks (LLM Stats)

Agents

AITZ_EM

83.2%Aut.

MobileMiniWob++_SR

68.0%Aut.

AndroidWorld_SR

35.0%Aut.

OSWorld

8.8%Aut.

General

MMVet

76.2%Aut.

MLVU-M

74.6%Aut.

MMStar

70.8%Aut.

MMMU

70.2%Aut.

MMMU-Pro

51.1%Aut.

Grounding

ScreenSpot

87.1%Aut.

ScreenSpot Pro

43.6%Aut.

Image To Text

DocVQA

96.4%Aut.

OCRBench

88.5%Aut.

OCRBench-V2 (en)

61.5%Aut.

Long Context

EgoSchema

76.2%Aut.

LVBench

47.3%Aut.

Math

MathVista-Mini

74.8%Aut.

MathVision

38.1%Aut.

Multimodal

Android Control Low_EM

93.7%Aut.

ChartQA

89.5%Aut.

AI2D

88.4%Aut.

MMBench

88.0%Aut.

CC-OCR

79.8%Aut.

TempCompass

74.8%Aut.

VideoMME w/o sub.

73.3%Aut.

PerceptionTest

73.2%Aut.

MVBench

70.4%Aut.

Android Control High_EM

67.4%Aut.

MMBench-Video

2.0%Aut.

Reasoning

Hallusion Bench

55.2%Aut.

Índices de evaluación AA

No hay datos de evaluación AA disponibles

Puntuaciones por categoría LLM Stats

Image To Text

Structured Output

Text-to-image

Reasoning

Spatial Reasoning

Grounding

Healthcare

Long Context

Math

Multimodal

Vision

General

Video

Agents

Precios

Precio de entrada$2.8 / 1M tokens

Precio de salida$8.4 / 1M tokens

Precio mixto (3:1)$4.2 / 1M tokens

Velocidad

No hay datos de velocidad disponibles

Ranking de Precios por Proveedor

12 proveedores

Más barato: Nebius Token FactoryMás caro: LLM Gateway

ProveedorEntradaSalida

1Nebius Token FactoryMás barato

$0.25

$0.75

2SiliconFlow (China)

$0.59

3SiliconFlow

$0.59

4NanoGPT

$0.69989

5OpenRouter

$0.8

6NovitaAI

$0.8

7Kilo Gateway

$0.8

8OVHcloud AI Endpoints

$1.01

9Alibaba (China)

$2.294

$6.881

10Alibaba Cloud / Qwen TeamPRINCIPAL

$2.8

$8.4

11Alibaba

$2.8

$8.4

12LLM Gateway

$2.8

$8.4

Comparar precios entre diferentes proveedores de API para este modelo.

Fuentes externas

LLM Stats Artificial Analysis