メインコンテンツへスキップ

MAI-Thinking-1

MicrosoftProprietary

説明

MAI-Thinking-1 is Microsoft AI's first in-house reasoning model, a 35B-active / ~1T-total parameter sparse Mixture of Experts model (base model MAI-Base-1) trained from scratch without distillation from third-party models. Built with Microsoft's Hill-Climbing Machine pipeline, it was pre-trained on 30T tokens of clean, commercially licensed, human-generated data (plus 3.55T mid-training tokens), then post-trained via reinforcement learning across STEM, agentic coding, and helpfulness/safety specialists consolidated into a single model. It delivers strong mathematical reasoning and software-engineering performance for its weight class, going toe-to-toe with Claude Opus 4.6 on SWE-Bench Pro and reaching 97.0% on AIME 2025. It supports a 256k token context window, function calling, and developer instructions, and is preferred over Claude Sonnet 4.6 in blind human side-by-side evaluations.

リリース日
2026-06-02
パラメータ
1.0T
コンテキスト長
モダリティ

能力レーダー

80
general
60
coding
90
reasoning
68
science推定
60
agents
40
multimodal

専門的な科学ベンチマークが利用できない場合、Scienceは推論プロキシを使用して推定します。

ランキング

ドメイン#順位スコアソース
エージェント能力45
60.0
LS

ベンチマークスコア (LLM Stats)

Agents

BFCL-v372.0%自己申告
SWE-Bench Pro52.8%自己申告
Terminal-Bench 2.046.0%自己申告

Biology

GPQA84.2%自己申告

Code

SWE-Bench Verified73.5%自己申告
CyberSecEval 463.0%自己申告

Communication

Multi-Challenge53.0%自己申告

Factuality

LongFact98.0%自己申告
SimpleQA Verified31.0%自己申告

Finance

TruthfulQA88.0%自己申告
MMLU-Pro85.0%自己申告

General

LiveCodeBench v687.7%自己申告
AdvancedIF85.0%自己申告
CorpusQA82.0%自己申告
IFBench69.0%自己申告
LongBench v261.0%自己申告

Healthcare

MedXpertQA43.0%自己申告
HealthBench Professional35.0%自己申告

Long Context

GraphWalks90.0%自己申告

Math

AIME 202597.0%自己申告
AIME 202694.5%自己申告
HMMT Feb 2684.9%自己申告

Safety

AIR-Bench88.0%自己申告

AA評価指数

AA評価データがありません

LLM Statsカテゴリスコア

Legal
90
Math
90
Finance
80
General
80
Language
80
Physics
80
Biology
80
Chemistry
80
Structured Output
70
Frontend Development
70
Instruction Following
70
Reasoning
70
Tool Calling
60
Healthcare
60
Long Context
60
Agents
60
Code
60
Communication
50
Vision
40
Multimodal
40

価格設定

価格データがありません

速度

速度データがありません

プロバイダー価格ランキング

プロバイダーデータがありません

外部リンク