メインコンテンツへスキップ

o1

OpenAIOpenAI o-seriesProprietary

説明

A research preview model focused on mathematical and logical reasoning capabilities, demonstrating improved performance on tasks requiring step-by-step reasoning, mathematical problem-solving, and code generation. The model shows enhanced capabilities in formal reasoning while maintaining strong general capabilities.

リリース日
2024-12-05
パラメータ
コンテキスト長
200K
モダリティ
file, image, text

能力レーダー

43
general
39
coding
80
reasoning
48
science推定
60
agents
70
multimodal

専門的な科学ベンチマークが利用できない場合、Scienceは推論プロキシを使用して推定します。

ランキング

ドメイン#順位スコアソース
Code Ranking157
49.0
AA
General Ranking104
66.0
AA
Math Reasoning55
87.0
AA
Science169
51.0
AA

ベンチマークスコア (LLM Stats)

Biology

GPQA78.0%自己申告
GPQA Biology69.2%自己申告

Chemistry

GPQA Chemistry64.7%自己申告

Code

HumanEval88.1%自己申告
SWE-Bench Verified41.0%自己申告

Communication

TAU-bench Retail70.8%自己申告
TAU-bench Airline50.0%自己申告

Factuality

SimpleQA47.0%自己申告

Finance

MMLU91.8%自己申告

General

MMMLU87.7%自己申告
MMMU77.6%自己申告
LiveBench67.0%自己申告

Math

GSM8k97.1%自己申告
MATH96.4%自己申告
MGSM89.3%自己申告
AIME 202474.3%自己申告
MathVista71.8%自己申告
FrontierMath5.5%自己申告

Physics

GPQA Physics92.8%自己申告

AA評価指数

Intelligence Index
30.8
Coding Index
20.5
Math 500
1.0
Mmlu Pro
0.8
Gpqa
0.7
Aime
0.7
Ifbench
0.7
Livecodebench
0.7
Tau2
0.6
Lcr
0.6
Scicode
0.4
Terminalbench Hard
0.1
Hle
0.1

LLM Statsカテゴリスコア

Finance
90
Language
90
Legal
90
Biology
80
Chemistry
80
Healthcare
80
Math
80
Physics
80
Vision
70
General
70
Multimodal
70
Reasoning
70
Tool Calling
60
Code
60
Communication
60
Factuality
50
Frontend Development
40

価格設定

入力価格$15 / 1M tokens
出力価格$60 / 1M tokens
混合価格(3:1)$26.25 / 1M tokens

速度

トークン/秒111.0 tokens/s
初トークン遅延22.15s
初回答遅延22.15s

利用可能なプロバイダー

(LS内部単位)

プロバイダーデータがありません

外部リンク