Перейти к основному содержанию

o1

OpenAIOpenAI o-seriesProprietary

Описание

A research preview model focused on mathematical and logical reasoning capabilities, demonstrating improved performance on tasks requiring step-by-step reasoning, mathematical problem-solving, and code generation. The model shows enhanced capabilities in formal reasoning while maintaining strong general capabilities.

Дата выхода
2024-12-05
Параметры
Длина контекста
200K
Модальности
file, image, text

Радар способностей

43
general
39
coding
80
reasoning
48
scienceоцен.
60
agents
70
multimodal

Science использует прокси на основе рассуждений, когда специализированные научные бенчмарки недоступны.

Рейтинги

Домен#МестоОценкаИсточник
Code Ranking157
49.0
AA
General Ranking104
66.0
AA
Math Reasoning55
87.0
AA
Science169
51.0
AA

Оценки бенчмарков (LLM Stats)

Biology

GPQA78.0%Сам.
GPQA Biology69.2%Сам.

Chemistry

GPQA Chemistry64.7%Сам.

Code

HumanEval88.1%Сам.
SWE-Bench Verified41.0%Сам.

Communication

TAU-bench Retail70.8%Сам.
TAU-bench Airline50.0%Сам.

Factuality

SimpleQA47.0%Сам.

Finance

MMLU91.8%Сам.

General

MMMLU87.7%Сам.
MMMU77.6%Сам.
LiveBench67.0%Сам.

Math

GSM8k97.1%Сам.
MATH96.4%Сам.
MGSM89.3%Сам.
AIME 202474.3%Сам.
MathVista71.8%Сам.
FrontierMath5.5%Сам.

Physics

GPQA Physics92.8%Сам.

Индексы оценки AA

Intelligence Index
30.8
Coding Index
20.5
Math 500
1.0
Mmlu Pro
0.8
Gpqa
0.7
Aime
0.7
Ifbench
0.7
Livecodebench
0.7
Tau2
0.6
Lcr
0.6
Scicode
0.4
Terminalbench Hard
0.1
Hle
0.1

Оценки категорий LLM Stats

Finance
90
Language
90
Legal
90
Biology
80
Chemistry
80
Healthcare
80
Math
80
Physics
80
Vision
70
General
70
Multimodal
70
Reasoning
70
Tool Calling
60
Code
60
Communication
60
Factuality
50
Frontend Development
40

Цены

Цена ввода$15 / 1M tokens
Цена вывода$60 / 1M tokens
Смешанная цена (3:1)$26.25 / 1M tokens

Скорость

Токенов/сек111.0 tokens/s
Задержка первого токена22.15s
Время до первого ответа22.15s

Доступные провайдеры

(Внутренние единицы LS)

Нет данных провайдеров

Внешние ссылки