Saltar al contenido principal

MiMo-V2-Omni-0327

Xiaomi

Descripción

MiMo-V2-Omni is Xiaomi's omni foundation model uniting frontier multimodal understanding with strong agentic capability. It fuses dedicated image, video, and audio encoders into a single shared backbone, processing all modalities simultaneously. Natively supports structured tool calling, function execution, and UI grounding. Supports over 10 hours of continuous audio understanding and 256K token context window.

Fecha de lanzamiento
2026-03-27
Parámetros
Longitud del contexto
262K
Modalidades
audio, image, pdf, text, video

Radar de capacidades

33
general
40
coding
86
reasoning
56
scienceest.
100
agents
85
multimodal

Science usa un proxy de razonamiento cuando los benchmarks científicos dedicados no están disponibles.

Rankings

Dominio#PosiciónPuntuaciónFuente
Ranking de codificación79
71.0
AA
Ranking general66
72.0
AA
Ciencia78
64.0
AA

Puntuaciones de benchmarks (LLM Stats)

Agents

GDPval-AA1410.00 / 3000Aut.
PinchBench81.2%Aut.
Claw-Eval54.8%Aut.
MM-BrowserComp52.0%Aut.
OmniGAIA49.8%Aut.

Code

SWE-Bench Verified74.8%Aut.

Índices de evaluación AA

Intelligence Index
36.4
Tau2
0.9
Gpqa
0.9
Ifbench
0.7
Lcr
0.6
Scicode
0.4
Terminalbench Hard
0.4
Hle
0.2

Puntuaciones por categoría LLM Stats

Legal
100
Finance
100
General
100
Reasoning
100
Agents
100
Frontend Development
70
Code
70
Coding
70

Precios

Precio de entrada$0.4 / 1M tokens
Precio de salida$2 / 1M tokens
Precio mixto (3:1)$0.8 / 1M tokens
Precio de lectura caché$0.08 / 1M tokens

Velocidad

Tokens/seg80.3
Retraso del primer token2.22s
Tiempo hasta la respuesta27.13s

Ranking de Precios por Proveedor

Ranking de Precios por Proveedor

1 proveedores

ProveedorEntradaSalida
1XiaomiPRINCIPAL
$0.4
$2

Comparar precios entre diferentes proveedores de API para este modelo.

Fuentes externas