MiniMax-M2.7
विवरण
MiniMax M2.7 features model self-improvement driving productivity innovation. It builds complex agent harnesses independently to accomplish highly complex productivity tasks. M2.7 demonstrates excellent performance in real-world software engineering including end-to-end project delivery, log analysis, code security, and ML tasks. On SWE-Pro it scores 56.22%, nearly matching Opus. It excels in professional office domains achieving the highest ELO among open-source models on GDPval-AA (1495), with significant improvement in complex editing for Office Suite. M2.7 maintains 97% skill adherence on 40 complex skills cases.
क्षमता रडार
समर्पित विज्ञान बेंचमार्क उपलब्ध न होने पर Science तर्क प्रॉक्सी का उपयोग करके अनुमान लगाता है।
रैंकिंग
| डोमेन | #रैंक | स्कोर | स्रोत |
|---|---|---|---|
| एजेंटिक क्षमता | 89 | 49.0 | LS |
| कोडिंग रैंकिंग | 64 | 73.0 | AA |
| सामान्य रैंकिंग | 48 | 75.0 | AA |
| विज्ञान | 40 | 74.0 | AA |
बेंचमार्क स्कोर (LLM Stats)
Agents
Code
General
AA मूल्यांकन सूचकांक
LLM Stats श्रेणी स्कोर
मूल्य निर्धारण
गति
प्रदाता मूल्य रैंकिंग
प्रदाता मूल्य रैंकिंग
29 प्रदाता
इस मॉडल के लिए विभिन्न API प्रदाताओं के मूल्य निर्धारण की तुलना करें।