MiniMax-M2.7
Descripción
MiniMax M2.7 features model self-improvement driving productivity innovation. It builds complex agent harnesses independently to accomplish highly complex productivity tasks. M2.7 demonstrates excellent performance in real-world software engineering including end-to-end project delivery, log analysis, code security, and ML tasks. On SWE-Pro it scores 56.22%, nearly matching Opus. It excels in professional office domains achieving the highest ELO among open-source models on GDPval-AA (1495), with significant improvement in complex editing for Office Suite. M2.7 maintains 97% skill adherence on 40 complex skills cases.
Radar de capacidades
Science usa un proxy de razonamiento cuando los benchmarks científicos dedicados no están disponibles.
Rankings
| Dominio | #Posición | Puntuación | Fuente |
|---|---|---|---|
| Capacidad agéntica | 89 | 49.0 | LS |
| Ranking de codificación | 64 | 73.0 | AA |
| Ranking general | 48 | 75.0 | AA |
| Ciencia | 40 | 74.0 | AA |
Puntuaciones de benchmarks (LLM Stats)
Agents
Code
General
Índices de evaluación AA
Puntuaciones por categoría LLM Stats
Precios
Velocidad
Ranking de Precios por Proveedor
Ranking de Precios por Proveedor
29 proveedores
Comparar precios entre diferentes proveedores de API para este modelo.