o3
OpenAIOpenAI o-seriesProprietary
説明
OpenAI's most powerful reasoning model. o3 is a well-rounded and powerful model across domains. It sets a new standard for math, science, coding, and visual reasoning tasks. It also excels at technical writing and instruction-following. Use it to think through multi-step problems that involve analysis across text, code, and images.
リリース日
2025-04-16
パラメータ
—
コンテキスト長
200K
モダリティ
file, image, text
能力レーダー
50
general
54
coding
90
reasoning
56
science推定
70
agents
85
multimodal
専門的な科学ベンチマークが利用できない場合、Scienceは推論プロキシを使用して推定します。
ランキング
| ドメイン | #順位 | スコア | ソース |
|---|---|---|---|
| Agents & Tools | 50 | 57.0 | LS |
| Code Ranking | 41 | 74.0 | AA |
| General Ranking | 55 | 77.0 | AA |
| Math Reasoning | 28 | 92.0 | AA |
| Multimodal Ranking | 33 | 79.0 | LS |
| Reasoning | 81 | 53.0 | LS |
| Science | 73 | 66.0 | AA |
ベンチマークスコア (LLM Stats)
Agents
Tau-bench
63.0%自己申告
BrowseComp
49.7%自己申告
Biology
GPQA
83.3%自己申告
Code
Aider-Polyglot
81.3%自己申告
SWE-Bench Verified
69.1%自己申告
Communication
Tau2 Retail
80.2%自己申告
Tau2 Airline
64.8%自己申告
Multi-Challenge
60.4%自己申告
Tau2 Telecom
58.2%自己申告
General
MMMU
82.9%自己申告
MMMU-Pro
76.4%自己申告
Healthcare
VideoMMMU
83.3%自己申告
Language
COLLIE
98.4%自己申告
Math
AIME 2024
91.6%自己申告
MathVista
86.8%自己申告
AIME 2025
86.4%自己申告
FrontierMath
15.8%自己申告
Humanity's Last Exam
14.7%自己申告
Multimodal
CharXiv-R
78.6%自己申告
Reasoning
ARC-AGI
88.0%自己申告
ERQA
64.0%自己申告
ARC-AGI v2
6.5%自己申告
AA評価指数
Math Index88.3
Intelligence Index38.4
Coding Index38.4
Math 5001.0
Aime0.9
Aime 250.9
Mmlu Pro0.9
Gpqa0.8
Livecodebench0.8
Tau20.8
Ifbench0.7
Lcr0.7
Scicode0.4
Terminalbench Hard0.4
Hle0.2
LLM Statsカテゴリスコア
Writing100
Language100
Biology80
Chemistry80
Code80
General80
Healthcare80
Multimodal80
Physics80
Tool Calling70
Communication70
Frontend Development70
Reasoning70
Vision60
Agents60
Math60
Spatial Reasoning50
Search50
価格設定
入力価格$2 / 1M tokens
出力価格$8 / 1M tokens
混合価格(3:1)$3.5 / 1M tokens
速度
トークン/秒92.1 tokens/s
初トークン遅延9.54s
初回答遅延9.54s
利用可能なプロバイダー
(LS内部単位)プロバイダーデータがありません