Passer au contenu principal

MiMo-V2-Omni-0327

Xiaomi

Description

MiMo-V2-Omni is Xiaomi's omni foundation model uniting frontier multimodal understanding with strong agentic capability. It fuses dedicated image, video, and audio encoders into a single shared backbone, processing all modalities simultaneously. Natively supports structured tool calling, function execution, and UI grounding. Supports over 10 hours of continuous audio understanding and 256K token context window.

Date de sortie
2026-03-27
Paramètres
Longueur du contexte
262K
Modalités
audio, image, pdf, text, video

Radar de capacités

33
general
40
coding
86
reasoning
56
scienceest.
100
agents
85
multimodal

Science utilise un proxy de raisonnement lorsque les benchmarks scientifiques dédiés ne sont pas disponibles.

Classements

Domaine#RangScoreSource
Classement codage79
71.0
AA
Classement général66
72.0
AA
Science78
64.0
AA

Scores de benchmarks (LLM Stats)

Agents

GDPval-AA1410.00 / 3000Aut.
PinchBench81.2%Aut.
Claw-Eval54.8%Aut.
MM-BrowserComp52.0%Aut.
OmniGAIA49.8%Aut.

Code

SWE-Bench Verified74.8%Aut.

Indices d'évaluation AA

Intelligence Index
36.4
Tau2
0.9
Gpqa
0.9
Ifbench
0.7
Lcr
0.6
Scicode
0.4
Terminalbench Hard
0.4
Hle
0.2

Scores par catégorie LLM Stats

Legal
100
Finance
100
General
100
Reasoning
100
Agents
100
Frontend Development
70
Code
70
Coding
70

Tarification

Prix d'entrée$0.4 / 1M tokens
Prix de sortie$2 / 1M tokens
Prix mixte (3:1)$0.8 / 1M tokens
Prix de lecture cache$0.08 / 1M tokens

Vitesse

Tokens/sec80.3
Délai du premier token2.22s
Temps de réponse27.13s

Classement des Prix par Fournisseur

Classement des Prix par Fournisseur

1 fournisseurs

FournisseurEntréeSortie
1XiaomiPRINCIPAL
$0.4
$2

Comparer les prix entre différents fournisseurs API pour ce modèle.

Sources externes