o1
OpenAIOpenAI o-seriesProprietary
説明
A research preview model focused on mathematical and logical reasoning capabilities, demonstrating improved performance on tasks requiring step-by-step reasoning, mathematical problem-solving, and code generation. The model shows enhanced capabilities in formal reasoning while maintaining strong general capabilities.
リリース日
2024-12-05
パラメータ
—
コンテキスト長
200K
モダリティ
file, image, text
能力レーダー
43
general
39
coding
80
reasoning
48
science推定
60
agents
70
multimodal
専門的な科学ベンチマークが利用できない場合、Scienceは推論プロキシを使用して推定します。
ランキング
| ドメイン | #順位 | スコア | ソース |
|---|---|---|---|
| Code Ranking | 157 | 49.0 | AA |
| General Ranking | 104 | 66.0 | AA |
| Math Reasoning | 55 | 87.0 | AA |
| Science | 169 | 51.0 | AA |
ベンチマークスコア (LLM Stats)
Biology
GPQA
78.0%自己申告
GPQA Biology
69.2%自己申告
Chemistry
GPQA Chemistry
64.7%自己申告
Code
HumanEval
88.1%自己申告
SWE-Bench Verified
41.0%自己申告
Communication
TAU-bench Retail
70.8%自己申告
TAU-bench Airline
50.0%自己申告
Factuality
SimpleQA
47.0%自己申告
Finance
MMLU
91.8%自己申告
General
MMMLU
87.7%自己申告
MMMU
77.6%自己申告
LiveBench
67.0%自己申告
Math
GSM8k
97.1%自己申告
MATH
96.4%自己申告
MGSM
89.3%自己申告
AIME 2024
74.3%自己申告
MathVista
71.8%自己申告
FrontierMath
5.5%自己申告
Physics
GPQA Physics
92.8%自己申告
AA評価指数
Intelligence Index30.8
Coding Index20.5
Math 5001.0
Mmlu Pro0.8
Gpqa0.7
Aime0.7
Ifbench0.7
Livecodebench0.7
Tau20.6
Lcr0.6
Scicode0.4
Terminalbench Hard0.1
Hle0.1
LLM Statsカテゴリスコア
Finance90
Language90
Legal90
Biology80
Chemistry80
Healthcare80
Math80
Physics80
Vision70
General70
Multimodal70
Reasoning70
Tool Calling60
Code60
Communication60
Factuality50
Frontend Development40
価格設定
入力価格$15 / 1M tokens
出力価格$60 / 1M tokens
混合価格(3:1)$26.25 / 1M tokens
速度
トークン/秒111.0 tokens/s
初トークン遅延22.15s
初回答遅延22.15s
利用可能なプロバイダー
(LS内部単位)プロバイダーデータがありません