メインコンテンツへスキップ

o3

OpenAIOpenAI o-seriesProprietary

説明

OpenAI's most powerful reasoning model. o3 is a well-rounded and powerful model across domains. It sets a new standard for math, science, coding, and visual reasoning tasks. It also excels at technical writing and instruction-following. Use it to think through multi-step problems that involve analysis across text, code, and images.

リリース日
2025-04-16
パラメータ
コンテキスト長
200K
モダリティ
file, image, text

能力レーダー

50
general
54
coding
90
reasoning
56
science推定
70
agents
85
multimodal

専門的な科学ベンチマークが利用できない場合、Scienceは推論プロキシを使用して推定します。

ランキング

ドメイン#順位スコアソース
Agents & Tools50
57.0
LS
Code Ranking41
74.0
AA
General Ranking55
77.0
AA
Math Reasoning28
92.0
AA
Multimodal Ranking33
79.0
LS
Reasoning81
53.0
LS
Science73
66.0
AA

ベンチマークスコア (LLM Stats)

Agents

Tau-bench63.0%自己申告
BrowseComp49.7%自己申告

Biology

GPQA83.3%自己申告

Code

Aider-Polyglot81.3%自己申告
SWE-Bench Verified69.1%自己申告

Communication

Tau2 Retail80.2%自己申告
Tau2 Airline64.8%自己申告
Multi-Challenge60.4%自己申告
Tau2 Telecom58.2%自己申告

General

MMMU82.9%自己申告
MMMU-Pro76.4%自己申告

Healthcare

VideoMMMU83.3%自己申告

Language

COLLIE98.4%自己申告

Math

AIME 202491.6%自己申告
MathVista86.8%自己申告
AIME 202586.4%自己申告
FrontierMath15.8%自己申告
Humanity's Last Exam14.7%自己申告

Multimodal

CharXiv-R78.6%自己申告

Reasoning

ARC-AGI88.0%自己申告
ERQA64.0%自己申告
ARC-AGI v26.5%自己申告

AA評価指数

Math Index
88.3
Intelligence Index
38.4
Coding Index
38.4
Math 500
1.0
Aime
0.9
Aime 25
0.9
Mmlu Pro
0.9
Gpqa
0.8
Livecodebench
0.8
Tau2
0.8
Ifbench
0.7
Lcr
0.7
Scicode
0.4
Terminalbench Hard
0.4
Hle
0.2

LLM Statsカテゴリスコア

Writing
100
Language
100
Biology
80
Chemistry
80
Code
80
General
80
Healthcare
80
Multimodal
80
Physics
80
Tool Calling
70
Communication
70
Frontend Development
70
Reasoning
70
Vision
60
Agents
60
Math
60
Spatial Reasoning
50
Search
50

価格設定

入力価格$2 / 1M tokens
出力価格$8 / 1M tokens
混合価格(3:1)$3.5 / 1M tokens

速度

トークン/秒92.1 tokens/s
初トークン遅延9.54s
初回答遅延9.54s

利用可能なプロバイダー

(LS内部単位)

プロバイダーデータがありません

外部リンク