Qwen2.5-Omni-7B

Alibaba Cloud / Qwen TeamQwenOpen WeightApache 2.0 · Usage Commercial

Description

Qwen2.5-Omni is the flagship end-to-end multimodal model in the Qwen series. It processes diverse inputs including text, images, audio, and video, delivering real-time streaming responses through text generation and natural speech synthesis using a novel Thinker-Talker architecture.

Date de sortie

2025-03-27

Paramètres

7.0B

Longueur du contexte

33K

Modalités

audio, image, text, video

Radar de capacités

general

coding

reasoning

scienceest.

agents

multimodal

Science utilise un proxy de raisonnement lorsque les benchmarks scientifiques dédiés ne sont pas disponibles.

Classements

Domaine	#Rang	Score	Source
Classement multimodal	57	74.0	LS

Scores de benchmarks (LLM Stats)

Audio

VocalSound

93.9%Aut.

GiantSteps Tempo

88.0%Aut.

MMAU Music

69.2%Aut.

MMAU Sound

67.9%Aut.

MMAU

65.6%Aut.

MMAU Speech

59.8%Aut.

OmniBench Music

52.8%Aut.

CoVoST2 en-zh

0.41 / 100Aut.

MusicCaps

32.8%Aut.

Common Voice 15

0.08 / 100Aut.

Biology

GPQA

30.8%Aut.

Code

HumanEval

78.7%Aut.

Communication

VoiceBench Avg

74.1%Aut.

MM-MT-Bench

0.06 / 100Aut.

Creativity

Meld

57.0%Aut.

Finance

MMLU-Pro

47.0%Aut.

General

MBPP

0.73 / 100Aut.

MMLU-Redux

71.0%Aut.

MultiPL-E

65.8%Aut.

MMStar

64.0%Aut.

MME-RealWorld

61.6%Aut.

MMMU

59.2%Aut.

MMMU-Pro

36.6%Aut.

LiveBench

29.6%Aut.

NMOS

0.05 / 100Aut.

Grounding

PointGrounding

66.5%Aut.

Healthcare

CRPErelation

76.5%Aut.

Image To Text

DocVQA

95.2%Aut.

TextVQA

84.4%Aut.

OCRBench_V2

57.8%Aut.

Language

FLEURS

95.9%Aut.

Long Context

EgoSchema

68.6%Aut.

Math

GSM8k

88.7%Aut.

MATH

71.5%Aut.

MathVista

67.9%Aut.

MathVision

25.0%Aut.

Multimodal

ChartQA

85.3%Aut.

AI2D

83.2%Aut.

MMBench-V1.1

81.8%Aut.

VideoMME w sub.

72.4%Aut.

MVBench

70.3%Aut.

MuirBench

59.2%Aut.

OmniBench

56.1%Aut.

Spatial Reasoning

RealWorldQA

70.3%Aut.

Vision

ODinW

42.4%Aut.

Indices d'évaluation AA

Aucune donnée d'évaluation AA disponible

Scores par catégorie LLM Stats

Speech To Text

100

Image To Text

Code

Language

Long Context

Spatial Reasoning

Video

Vision

Math

Multimodal

Reasoning

Legal

Finance

General

Healthcare

Physics

Biology

Chemistry

Communication

Tarification

Prix d'entrée$0.1 / 1M tokens

Prix de sortie$0.4 / 1M tokens

Prix mixte (3:1)$0.175 / 1M tokens

Vitesse

Aucune donnée de vitesse disponible

Classement des Prix par Fournisseur

3 fournisseurs

Moins cher: Alibaba (China)Plus cher: Alibaba

FournisseurEntréeSortie

1Alibaba (China)Moins cher

$0.087

$0.345

2Alibaba Cloud / Qwen TeamPRINCIPAL

$0.1

$0.4

3Alibaba

$0.1

$0.4

Comparer les prix entre différents fournisseurs API pour ce modèle.

Sources externes

LLM Stats Artificial Analysis