Saltar al contenido principal

MiMo-V2-Omni

XiaomiProprietary

Descripción

MiMo-V2-Omni is Xiaomi's omni foundation model uniting frontier multimodal understanding with strong agentic capability. It fuses dedicated image, video, and audio encoders into a single shared backbone, processing all modalities simultaneously. Natively supports structured tool calling, function execution, and UI grounding. Supports over 10 hours of continuous audio understanding and 256K token context window.

Fecha de lanzamiento
2026-03-19
Parámetros
Longitud del contexto
262K
Modalidades
audio, image, text, video

Radar de capacidades

38
general
36
coding
83
reasoning
54
scienceest.
100
agents
85
multimodal

Science usa un proxy de razonamiento cuando los benchmarks científicos dedicados no están disponibles.

Rankings

Dominio#PosiciónPuntuaciónFuente
Agents & Tools61
54.0
LS
Code Ranking75
66.0
AA
General Ranking74
73.0
AA
Science82
64.0
AA

Puntuaciones de benchmarks (LLM Stats)

Agents

GDPval-AA1410.00 / 3000Aut.
PinchBench81.2%Aut.
Claw-Eval54.8%Aut.
MM-BrowserComp52.0%Aut.
OmniGAIA49.8%Aut.

Code

SWE-Bench Verified74.8%Aut.

Índices de evaluación AA

Intelligence Index
43.4
Coding Index
35.5
Tau2
0.9
Gpqa
0.8
Lcr
0.7
Ifbench
0.5
Scicode
0.4
Terminalbench Hard
0.3
Hle
0.2

Puntuaciones por categoría LLM Stats

Finance
100
General
100
Legal
100
Reasoning
100
Agents
100
Code
70
Coding
70
Frontend Development
70

Precios

Precio de entradaGratis
Precio de salidaGratis
Precio mixto (3:1)Gratis

Velocidad

Tokens/seg120.9 tokens/s
Retraso del primer token1.35s
Tiempo hasta la respuesta17.89s

Proveedores disponibles

(Unidades internas LS)
ProveedorPrecio de entradaPrecio de salida
Xiaomi400K2.0M

Fuentes externas