Passer au contenu principal

MiMo-V2-Omni

XiaomiProprietary

Description

MiMo-V2-Omni is Xiaomi's omni foundation model uniting frontier multimodal understanding with strong agentic capability. It fuses dedicated image, video, and audio encoders into a single shared backbone, processing all modalities simultaneously. Natively supports structured tool calling, function execution, and UI grounding. Supports over 10 hours of continuous audio understanding and 256K token context window.

Date de sortie
2026-03-19
Paramètres
Longueur du contexte
262K
Modalités
audio, image, text, video

Radar de capacités

38
general
36
coding
83
reasoning
54
scienceest.
100
agents
85
multimodal

Science utilise un proxy de raisonnement lorsque les benchmarks scientifiques dédiés ne sont pas disponibles.

Classements

Domaine#RangScoreSource
Agents & Tools61
54.0
LS
Code Ranking75
66.0
AA
General Ranking74
73.0
AA
Science82
64.0
AA

Scores de benchmarks (LLM Stats)

Agents

GDPval-AA1410.00 / 3000Aut.
PinchBench81.2%Aut.
Claw-Eval54.8%Aut.
MM-BrowserComp52.0%Aut.
OmniGAIA49.8%Aut.

Code

SWE-Bench Verified74.8%Aut.

Indices d'évaluation AA

Intelligence Index
43.4
Coding Index
35.5
Tau2
0.9
Gpqa
0.8
Lcr
0.7
Ifbench
0.5
Scicode
0.4
Terminalbench Hard
0.3
Hle
0.2

Scores par catégorie LLM Stats

Finance
100
General
100
Legal
100
Reasoning
100
Agents
100
Code
70
Coding
70
Frontend Development
70

Tarification

Prix d'entréeGratuit
Prix de sortieGratuit
Prix mixte (3:1)Gratuit

Vitesse

Tokens/sec120.9 tokens/s
Délai du premier token1.35s
Temps de réponse17.89s

Fournisseurs disponibles

(Unités internes LS)
FournisseurPrix d'entréePrix de sortie
Xiaomi400K2.0M

Sources externes