Passer au contenu principal

MiMo-V2.5-TTS

Xiaomi

Description

MiMo-V2.5 is Xiaomi's native omnimodal sparse Mixture-of-Experts model with 310B total parameters, 15B activated parameters, and a 1M-token context window. Built on the MiMo-V2-Flash backbone, it adds dedicated vision and audio encoders for text, image, video, and audio understanding, and is post-trained with SFT, agentic reinforcement learning, and Multi-Teacher On-Policy Distillation for multimodal perception, long-context reasoning, and agentic workflows.

Date de sortie
2026-04-22
Paramètres
Longueur du contexte
1.0M
Modalités
audio, image, text, video

Radar de capacités

80
general
60
coding
70
reasoning
60
scienceest.
70
agents
88
multimodal

Science utilise un proxy de raisonnement lorsque les benchmarks scientifiques dédiés ne sont pas disponibles.

Classements

Domaine#RangScoreSource
Audio35
65.0
AA

Scores de benchmarks (LLM Stats)

Agents

MiMo Coding Bench71.8%Aut.
Terminal-Bench 2.065.8%Aut.
Claw-Eval63.2%Aut.
SWE-Bench Pro56.1%Aut.
Finance Agent v236.7%Aut.
ResearchClawBench16.9%Aut.

Document Understanding

OmniDocBench87.2%Aut.

General

MMMU-Pro77.9%Aut.

Long Context

GraphWalks87.0%Aut.

Multimodal

HR-Bench (4k)88.5%Aut.
Video-MME87.7%Aut.
DailyOmni83.5%Aut.
CharXiv-R81.0%Aut.
VideoHolmes64.0%Aut.

Indices d'évaluation AA

Aucune donnée d'évaluation AA disponible

Scores par catégorie LLM Stats

Long Context
90
Multimodal
80
General
80
Vision
80
Reasoning
70
Tool Calling
70
Agents
60
Code
60
Coding
60
Finance
40

Tarification

Prix d'entrée$0.4 / 1M tokens
Prix de sortie$2 / 1M tokens
Prix mixte (3:1)$0.8 / 1M tokens
Prix de lecture cache$0.08 / 1M tokens

Vitesse

Aucune donnée de vitesse disponible

Classement des Prix par Fournisseur

Classement des Prix par Fournisseur

1 fournisseurs

FournisseurEntréeSortie
1XiaomiPRINCIPAL
$0.4
$2

Comparer les prix entre différents fournisseurs API pour ce modèle.

Sources externes