o1
OpenAIOpenAI o-seriesProprietary
Описание
A research preview model focused on mathematical and logical reasoning capabilities, demonstrating improved performance on tasks requiring step-by-step reasoning, mathematical problem-solving, and code generation. The model shows enhanced capabilities in formal reasoning while maintaining strong general capabilities.
Дата выхода
2024-12-05
Параметры
—
Длина контекста
200K
Модальности
file, image, text
Радар способностей
43
general
39
coding
80
reasoning
48
scienceоцен.
60
agents
70
multimodal
Science использует прокси на основе рассуждений, когда специализированные научные бенчмарки недоступны.
Рейтинги
| Домен | #Место | Оценка | Источник |
|---|---|---|---|
| Code Ranking | 157 | 49.0 | AA |
| General Ranking | 104 | 66.0 | AA |
| Math Reasoning | 55 | 87.0 | AA |
| Science | 169 | 51.0 | AA |
Оценки бенчмарков (LLM Stats)
Biology
GPQA
78.0%Сам.
GPQA Biology
69.2%Сам.
Chemistry
GPQA Chemistry
64.7%Сам.
Code
HumanEval
88.1%Сам.
SWE-Bench Verified
41.0%Сам.
Communication
TAU-bench Retail
70.8%Сам.
TAU-bench Airline
50.0%Сам.
Factuality
SimpleQA
47.0%Сам.
Finance
MMLU
91.8%Сам.
General
MMMLU
87.7%Сам.
MMMU
77.6%Сам.
LiveBench
67.0%Сам.
Math
GSM8k
97.1%Сам.
MATH
96.4%Сам.
MGSM
89.3%Сам.
AIME 2024
74.3%Сам.
MathVista
71.8%Сам.
FrontierMath
5.5%Сам.
Physics
GPQA Physics
92.8%Сам.
Индексы оценки AA
Intelligence Index30.8
Coding Index20.5
Math 5001.0
Mmlu Pro0.8
Gpqa0.7
Aime0.7
Ifbench0.7
Livecodebench0.7
Tau20.6
Lcr0.6
Scicode0.4
Terminalbench Hard0.1
Hle0.1
Оценки категорий LLM Stats
Finance90
Language90
Legal90
Biology80
Chemistry80
Healthcare80
Math80
Physics80
Vision70
General70
Multimodal70
Reasoning70
Tool Calling60
Code60
Communication60
Factuality50
Frontend Development40
Цены
Цена ввода$15 / 1M tokens
Цена вывода$60 / 1M tokens
Смешанная цена (3:1)$26.25 / 1M tokens
Скорость
Токенов/сек111.0 tokens/s
Задержка первого токена22.15s
Время до первого ответа22.15s
Доступные провайдеры
(Внутренние единицы LS)Нет данных провайдеров