MiMo-V2.5-TTS

Xiaomi

Descripción

MiMo-V2.5 is Xiaomi's native omnimodal sparse Mixture-of-Experts model with 310B total parameters, 15B activated parameters, and a 1M-token context window. Built on the MiMo-V2-Flash backbone, it adds dedicated vision and audio encoders for text, image, video, and audio understanding, and is post-trained with SFT, agentic reinforcement learning, and Multi-Teacher On-Policy Distillation for multimodal perception, long-context reasoning, and agentic workflows.

Fecha de lanzamiento

2026-04-22

Parámetros

—

Longitud del contexto

1.0M

Modalidades

audio, image, text, video

Radar de capacidades

general

coding

reasoning

scienceest.

agents

multimodal

Science usa un proxy de razonamiento cuando los benchmarks científicos dedicados no están disponibles.

Rankings

Dominio	#Posición	Puntuación	Fuente
Audio	35	65.0	AA

Puntuaciones de benchmarks (LLM Stats)

Agents

MiMo Coding Bench

71.8%Aut.

Terminal-Bench 2.0

65.8%Aut.

Claw-Eval

63.2%Aut.

SWE-Bench Pro

56.1%Aut.

Finance Agent v2

36.7%Aut.

ResearchClawBench

16.9%Aut.

Document Understanding

OmniDocBench

87.2%Aut.

General

MMMU-Pro

77.9%Aut.

Long Context

GraphWalks

87.0%Aut.

Multimodal

HR-Bench (4k)

88.5%Aut.

Video-MME

87.7%Aut.

DailyOmni

83.5%Aut.

CharXiv-R

81.0%Aut.

VideoHolmes

64.0%Aut.

Índices de evaluación AA

No hay datos de evaluación AA disponibles

Puntuaciones por categoría LLM Stats

Long Context

Multimodal

General

Vision

Reasoning

Tool Calling

Agents

Code

Coding

Finance

Precios

Precio de entrada$0.4 / 1M tokens

Precio de salida$2 / 1M tokens

Precio mixto (3:1)$0.8 / 1M tokens

Precio de lectura caché$0.08 / 1M tokens

Velocidad

No hay datos de velocidad disponibles

Ranking de Precios por Proveedor

1 proveedores

ProveedorEntradaSalida

1XiaomiPRINCIPAL

$0.4

Comparar precios entre diferentes proveedores de API para este modelo.

Fuentes externas

Artificial Analysis