MiMo-V2-Omni-0327

Xiaomi

Description

MiMo-V2-Omni is Xiaomi's omni foundation model uniting frontier multimodal understanding with strong agentic capability. It fuses dedicated image, video, and audio encoders into a single shared backbone, processing all modalities simultaneously. Natively supports structured tool calling, function execution, and UI grounding. Supports over 10 hours of continuous audio understanding and 256K token context window.

Date de sortie

2026-03-27

Paramètres

—

Longueur du contexte

262K

Modalités

audio, image, pdf, text, video

Radar de capacités

general

coding

reasoning

scienceest.

100

agents

multimodal

Science utilise un proxy de raisonnement lorsque les benchmarks scientifiques dédiés ne sont pas disponibles.

Classements

Domaine	#Rang	Score	Source
Classement codage	79	71.0	AA
Classement général	66	72.0	AA
Science	78	64.0	AA

Scores de benchmarks (LLM Stats)

Agents

GDPval-AA

1410.00 / 3000Aut.

PinchBench

81.2%Aut.

Claw-Eval

54.8%Aut.

MM-BrowserComp

52.0%Aut.

OmniGAIA

49.8%Aut.

Code

SWE-Bench Verified

74.8%Aut.

Indices d'évaluation AA

Intelligence Index

36.4

Tau2

0.9

Gpqa

0.9

Ifbench

0.7

Lcr

0.6

Scicode

0.4

Terminalbench Hard

0.4

Hle

0.2

Scores par catégorie LLM Stats

Legal

100

Finance

100

General

100

Reasoning

100

Agents

100

Frontend Development

Code

Coding

Tarification

Prix d'entrée$0.4 / 1M tokens

Prix de sortie$2 / 1M tokens

Prix mixte (3:1)$0.8 / 1M tokens

Prix de lecture cache$0.08 / 1M tokens

Vitesse

Tokens/sec80.3

Délai du premier token2.22s

Temps de réponse27.13s

Classement des Prix par Fournisseur

1 fournisseurs

FournisseurEntréeSortie

1XiaomiPRINCIPAL

$0.4

Comparer les prix entre différents fournisseurs API pour ce modèle.

Sources externes

Artificial Analysis