MiMo-V2.5-TTS
Xiaomi
Description
MiMo-V2.5 is Xiaomi's native omnimodal sparse Mixture-of-Experts model with 310B total parameters, 15B activated parameters, and a 1M-token context window. Built on the MiMo-V2-Flash backbone, it adds dedicated vision and audio encoders for text, image, video, and audio understanding, and is post-trained with SFT, agentic reinforcement learning, and Multi-Teacher On-Policy Distillation for multimodal perception, long-context reasoning, and agentic workflows.
Date de sortie
2026-04-22
Paramètres
—
Longueur du contexte
1.0M
Modalités
audio, image, text, video
Radar de capacités
80
general
60
coding
70
reasoning
60
scienceest.
70
agents
88
multimodal
Science utilise un proxy de raisonnement lorsque les benchmarks scientifiques dédiés ne sont pas disponibles.
Classements
| Domaine | #Rang | Score | Source |
|---|---|---|---|
| Audio | 35 | 65.0 | AA |
Scores de benchmarks (LLM Stats)
Agents
MiMo Coding Bench
71.8%Aut.
Terminal-Bench 2.0
65.8%Aut.
Claw-Eval
63.2%Aut.
SWE-Bench Pro
56.1%Aut.
Finance Agent v2
36.7%Aut.
ResearchClawBench
16.9%Aut.
Document Understanding
OmniDocBench
87.2%Aut.
General
MMMU-Pro
77.9%Aut.
Long Context
GraphWalks
87.0%Aut.
Multimodal
HR-Bench (4k)
88.5%Aut.
Video-MME
87.7%Aut.
DailyOmni
83.5%Aut.
CharXiv-R
81.0%Aut.
VideoHolmes
64.0%Aut.
Indices d'évaluation AA
Aucune donnée d'évaluation AA disponible
Scores par catégorie LLM Stats
Long Context90
Multimodal80
General80
Vision80
Reasoning70
Tool Calling70
Agents60
Code60
Coding60
Finance40
Tarification
Prix d'entrée$0.4 / 1M tokens
Prix de sortie$2 / 1M tokens
Prix mixte (3:1)$0.8 / 1M tokens
Prix de lecture cache$0.08 / 1M tokens
Vitesse
Aucune donnée de vitesse disponible
Classement des Prix par Fournisseur
Classement des Prix par Fournisseur
1 fournisseurs
FournisseurEntréeSortie
1XiaomiPRINCIPAL
$0.4
$2
Comparer les prix entre différents fournisseurs API pour ce modèle.