Qwen2.5 VL 72B Instruct

Alibaba Cloud / Qwen TeamQwenOpen Weighttongyi-qianwen

Description

Qwen2.5-VL is the new flagship vision-language model of Qwen, significantly improved from Qwen2-VL. It excels at recognizing objects, analyzing text/charts/layouts in images, acting as a visual agent, understanding long videos (over 1 hour) with event pinpointing, performing visual localization (bounding boxes/points), and generating structured outputs from documents.

Date de sortie

2025-01-26

Paramètres

72.0B

Longueur du contexte

131K

Modalités

image, text

Radar de capacités

general

coding

reasoning

scienceest.

agents

multimodal

Science utilise un proxy de raisonnement lorsque les benchmarks scientifiques dédiés ne sont pas disponibles.

Classements

Domaine	#Rang	Score	Source
Capacité agentique	98	45.0	LS
Classement multimodal	59	73.0	LS
Raisonnement	79	55.0	LS

Scores de benchmarks (LLM Stats)

Agents

AITZ_EM

83.2%Aut.

MobileMiniWob++_SR

68.0%Aut.

AndroidWorld_SR

35.0%Aut.

OSWorld

8.8%Aut.

General

MMVet

76.2%Aut.

MLVU-M

74.6%Aut.

MMStar

70.8%Aut.

MMMU

70.2%Aut.

MMMU-Pro

51.1%Aut.

Grounding

ScreenSpot

87.1%Aut.

ScreenSpot Pro

43.6%Aut.

Image To Text

DocVQA

96.4%Aut.

OCRBench

88.5%Aut.

OCRBench-V2 (en)

61.5%Aut.

Long Context

EgoSchema

76.2%Aut.

LVBench

47.3%Aut.

Math

MathVista-Mini

74.8%Aut.

MathVision

38.1%Aut.

Multimodal

Android Control Low_EM

93.7%Aut.

ChartQA

89.5%Aut.

AI2D

88.4%Aut.

MMBench

88.0%Aut.

CC-OCR

79.8%Aut.

TempCompass

74.8%Aut.

VideoMME w/o sub.

73.3%Aut.

PerceptionTest

73.2%Aut.

MVBench

70.4%Aut.

Android Control High_EM

67.4%Aut.

MMBench-Video

2.0%Aut.

Reasoning

Hallusion Bench

55.2%Aut.

Indices d'évaluation AA

Aucune donnée d'évaluation AA disponible

Scores par catégorie LLM Stats

Image To Text

Structured Output

Text-to-image

Reasoning

Spatial Reasoning

Grounding

Healthcare

Long Context

Math

Multimodal

Vision

General

Video

Agents

Tarification

Prix d'entrée$2.8 / 1M tokens

Prix de sortie$8.4 / 1M tokens

Prix mixte (3:1)$4.2 / 1M tokens

Vitesse

Aucune donnée de vitesse disponible

Classement des Prix par Fournisseur

12 fournisseurs

Moins cher: Nebius Token FactoryPlus cher: LLM Gateway

FournisseurEntréeSortie

1Nebius Token FactoryMoins cher

$0.25

$0.75

2SiliconFlow (China)

$0.59

3SiliconFlow

$0.59

4NanoGPT

$0.69989

5OpenRouter

$0.8

6NovitaAI

$0.8

7Kilo Gateway

$0.8

8OVHcloud AI Endpoints

$1.01

9Alibaba (China)

$2.294

$6.881

10Alibaba Cloud / Qwen TeamPRINCIPAL

$2.8

$8.4

11Alibaba

$2.8

$8.4

12LLM Gateway

$2.8

$8.4

Comparer les prix entre différents fournisseurs API pour ce modèle.

Sources externes

LLM Stats Artificial Analysis