o1
OpenAIOpenAI o-seriesProprietary
설명
A research preview model focused on mathematical and logical reasoning capabilities, demonstrating improved performance on tasks requiring step-by-step reasoning, mathematical problem-solving, and code generation. The model shows enhanced capabilities in formal reasoning while maintaining strong general capabilities.
출시일
2024-12-05
파라미터
—
컨텍스트 길이
200K
모달리티
file, image, text
능력 레이더
43
general
39
coding
80
reasoning
48
science추정
60
agents
70
multimodal
전용 과학 벤치마크가 없을 때 Science는 추론 프록시를 사용하여 추정합니다.
랭킹
| 도메인 | #순위 | 점수 | 소스 |
|---|---|---|---|
| Code Ranking | 157 | 49.0 | AA |
| General Ranking | 104 | 66.0 | AA |
| Math Reasoning | 55 | 87.0 | AA |
| Science | 169 | 51.0 | AA |
벤치마크 점수 (LLM Stats)
Biology
GPQA
78.0%자체 보고
GPQA Biology
69.2%자체 보고
Chemistry
GPQA Chemistry
64.7%자체 보고
Code
HumanEval
88.1%자체 보고
SWE-Bench Verified
41.0%자체 보고
Communication
TAU-bench Retail
70.8%자체 보고
TAU-bench Airline
50.0%자체 보고
Factuality
SimpleQA
47.0%자체 보고
Finance
MMLU
91.8%자체 보고
General
MMMLU
87.7%자체 보고
MMMU
77.6%자체 보고
LiveBench
67.0%자체 보고
Math
GSM8k
97.1%자체 보고
MATH
96.4%자체 보고
MGSM
89.3%자체 보고
AIME 2024
74.3%자체 보고
MathVista
71.8%자체 보고
FrontierMath
5.5%자체 보고
Physics
GPQA Physics
92.8%자체 보고
AA 평가 지수
Intelligence Index30.8
Coding Index20.5
Math 5001.0
Mmlu Pro0.8
Gpqa0.7
Aime0.7
Ifbench0.7
Livecodebench0.7
Tau20.6
Lcr0.6
Scicode0.4
Terminalbench Hard0.1
Hle0.1
LLM Stats 카테고리 점수
Finance90
Language90
Legal90
Biology80
Chemistry80
Healthcare80
Math80
Physics80
Vision70
General70
Multimodal70
Reasoning70
Tool Calling60
Code60
Communication60
Factuality50
Frontend Development40
가격
입력 가격$15 / 1M tokens
출력 가격$60 / 1M tokens
혼합 가격 (3:1)$26.25 / 1M tokens
속도
토큰/초111.0 tokens/s
첫 토큰 지연22.15s
첫 응답 지연22.15s
사용 가능한 프로바이더
(LS 내부 단위)프로바이더 데이터가 없습니다