MiMo-V2.5-TTS

Xiaomi

Description

MiMo-V2.5 is Xiaomi's native omnimodal sparse Mixture-of-Experts model with 310B total parameters, 15B activated parameters, and a 1M-token context window. Built on the MiMo-V2-Flash backbone, it adds dedicated vision and audio encoders for text, image, video, and audio understanding, and is post-trained with SFT, agentic reinforcement learning, and Multi-Teacher On-Policy Distillation for multimodal perception, long-context reasoning, and agentic workflows.

Date de sortie

2026-04-22

Paramètres

—

Longueur du contexte

1.0M

Modalités

audio, image, text, video

Radar de capacités

general

coding

reasoning

scienceest.

agents

multimodal

Science utilise un proxy de raisonnement lorsque les benchmarks scientifiques dédiés ne sont pas disponibles.

Classements

Domaine	#Rang	Score	Source
Audio	35	65.0	AA

Scores de benchmarks (LLM Stats)

Agents

MiMo Coding Bench

71.8%Aut.

Terminal-Bench 2.0

65.8%Aut.

Claw-Eval

63.2%Aut.

SWE-Bench Pro

56.1%Aut.

Finance Agent v2

36.7%Aut.

ResearchClawBench

16.9%Aut.

Document Understanding

OmniDocBench

87.2%Aut.

General

MMMU-Pro

77.9%Aut.

Long Context

GraphWalks

87.0%Aut.

Multimodal

HR-Bench (4k)

88.5%Aut.

Video-MME

87.7%Aut.

DailyOmni

83.5%Aut.

CharXiv-R

81.0%Aut.

VideoHolmes

64.0%Aut.

Indices d'évaluation AA

Aucune donnée d'évaluation AA disponible

Scores par catégorie LLM Stats

Long Context

Multimodal

General

Vision

Reasoning

Tool Calling

Agents

Code

Coding

Finance

Tarification

Prix d'entrée$0.4 / 1M tokens

Prix de sortie$2 / 1M tokens

Prix mixte (3:1)$0.8 / 1M tokens

Prix de lecture cache$0.08 / 1M tokens

Vitesse

Aucune donnée de vitesse disponible

Classement des Prix par Fournisseur

1 fournisseurs

FournisseurEntréeSortie

1XiaomiPRINCIPAL

$0.4

Comparer les prix entre différents fournisseurs API pour ce modèle.

Sources externes

Artificial Analysis