Qwen2.5-Omni-7B

Alibaba Cloud / Qwen TeamQwenOpen WeightApache 2.0 · Uso Comercial

Descripción

Qwen2.5-Omni is the flagship end-to-end multimodal model in the Qwen series. It processes diverse inputs including text, images, audio, and video, delivering real-time streaming responses through text generation and natural speech synthesis using a novel Thinker-Talker architecture.

Fecha de lanzamiento

2025-03-27

Parámetros

7.0B

Longitud del contexto

33K

Modalidades

audio, image, text, video

Radar de capacidades

general

coding

reasoning

scienceest.

agents

multimodal

Science usa un proxy de razonamiento cuando los benchmarks científicos dedicados no están disponibles.

Rankings

Dominio	#Posición	Puntuación	Fuente
Ranking multimodal	57	74.0	LS

Puntuaciones de benchmarks (LLM Stats)

Audio

VocalSound

93.9%Aut.

GiantSteps Tempo

88.0%Aut.

MMAU Music

69.2%Aut.

MMAU Sound

67.9%Aut.

MMAU

65.6%Aut.

MMAU Speech

59.8%Aut.

OmniBench Music

52.8%Aut.

CoVoST2 en-zh

0.41 / 100Aut.

MusicCaps

32.8%Aut.

Common Voice 15

0.08 / 100Aut.

Biology

GPQA

30.8%Aut.

Code

HumanEval

78.7%Aut.

Communication

VoiceBench Avg

74.1%Aut.

MM-MT-Bench

0.06 / 100Aut.

Creativity

Meld

57.0%Aut.

Finance

MMLU-Pro

47.0%Aut.

General

MBPP

0.73 / 100Aut.

MMLU-Redux

71.0%Aut.

MultiPL-E

65.8%Aut.

MMStar

64.0%Aut.

MME-RealWorld

61.6%Aut.

MMMU

59.2%Aut.

MMMU-Pro

36.6%Aut.

LiveBench

29.6%Aut.

NMOS

0.05 / 100Aut.

Grounding

PointGrounding

66.5%Aut.

Healthcare

CRPErelation

76.5%Aut.

Image To Text

DocVQA

95.2%Aut.

TextVQA

84.4%Aut.

OCRBench_V2

57.8%Aut.

Language

FLEURS

95.9%Aut.

Long Context

EgoSchema

68.6%Aut.

Math

GSM8k

88.7%Aut.

MATH

71.5%Aut.

MathVista

67.9%Aut.

MathVision

25.0%Aut.

Multimodal

ChartQA

85.3%Aut.

AI2D

83.2%Aut.

MMBench-V1.1

81.8%Aut.

VideoMME w sub.

72.4%Aut.

MVBench

70.3%Aut.

MuirBench

59.2%Aut.

OmniBench

56.1%Aut.

Spatial Reasoning

RealWorldQA

70.3%Aut.

Vision

ODinW

42.4%Aut.

Índices de evaluación AA

No hay datos de evaluación AA disponibles

Puntuaciones por categoría LLM Stats

Speech To Text

100

Image To Text

Code

Language

Long Context

Spatial Reasoning

Video

Vision

Math

Multimodal

Reasoning

Legal

Finance

General

Healthcare

Physics

Biology

Chemistry

Communication

Precios

Precio de entrada$0.1 / 1M tokens

Precio de salida$0.4 / 1M tokens

Precio mixto (3:1)$0.175 / 1M tokens

Velocidad

No hay datos de velocidad disponibles

Ranking de Precios por Proveedor

3 proveedores

Más barato: Alibaba (China)Más caro: Alibaba

ProveedorEntradaSalida

1Alibaba (China)Más barato

$0.087

$0.345

2Alibaba Cloud / Qwen TeamPRINCIPAL

$0.1

$0.4

3Alibaba

$0.1

$0.4

Comparar precios entre diferentes proveedores de API para este modelo.

Fuentes externas

LLM Stats Artificial Analysis