MiMo-V2-Omni-0327

Xiaomi

Descripción

MiMo-V2-Omni is Xiaomi's omni foundation model uniting frontier multimodal understanding with strong agentic capability. It fuses dedicated image, video, and audio encoders into a single shared backbone, processing all modalities simultaneously. Natively supports structured tool calling, function execution, and UI grounding. Supports over 10 hours of continuous audio understanding and 256K token context window.

Fecha de lanzamiento

2026-03-27

Parámetros

—

Longitud del contexto

262K

Modalidades

audio, image, pdf, text, video

Radar de capacidades

general

coding

reasoning

scienceest.

100

agents

multimodal

Science usa un proxy de razonamiento cuando los benchmarks científicos dedicados no están disponibles.

Rankings

Dominio	#Posición	Puntuación	Fuente
Ranking de codificación	79	71.0	AA
Ranking general	66	72.0	AA
Ciencia	78	64.0	AA

Puntuaciones de benchmarks (LLM Stats)

Agents

GDPval-AA

1410.00 / 3000Aut.

PinchBench

81.2%Aut.

Claw-Eval

54.8%Aut.

MM-BrowserComp

52.0%Aut.

OmniGAIA

49.8%Aut.

Code

SWE-Bench Verified

74.8%Aut.

Índices de evaluación AA

Intelligence Index

36.4

Tau2

0.9

Gpqa

0.9

Ifbench

0.7

Lcr

0.6

Scicode

0.4

Terminalbench Hard

0.4

Hle

0.2

Puntuaciones por categoría LLM Stats

Legal

100

Finance

100

General

100

Reasoning

100

Agents

100

Frontend Development

Code

Coding

Precios

Precio de entrada$0.4 / 1M tokens

Precio de salida$2 / 1M tokens

Precio mixto (3:1)$0.8 / 1M tokens

Precio de lectura caché$0.08 / 1M tokens

Velocidad

Tokens/seg80.3

Retraso del primer token2.22s

Tiempo hasta la respuesta27.13s

Ranking de Precios por Proveedor

1 proveedores

ProveedorEntradaSalida

1XiaomiPRINCIPAL

$0.4

Comparar precios entre diferentes proveedores de API para este modelo.

Fuentes externas

Artificial Analysis