Перейти к основному содержанию

o3-mini

OpenAIOpenAI o-seriesProprietary

Описание

A smaller variant of O3, expected to offer enhanced multimodal capabilities, improved reasoning, and more efficient resource utilization compared to previous models while maintaining strong performance on core tasks.

Дата выхода
2025-01-31
Параметры
Длина контекста
200K
Модальности
file, text

Радар способностей

39
general
39
coding
83
reasoning
49
scienceоцен.
40
agents
85
multimodal

Science использует прокси на основе рассуждений, когда специализированные научные бенчмарки недоступны.

Рейтинги

Домен#МестоОценкаИсточник
Code Ranking230
37.0
AA
General Ranking214
48.0
AA
Math Reasoning50
89.0
AA
Reasoning78
54.0
LS
Science146
54.0
AA

Оценки бенчмарков (LLM Stats)

Biology

GPQA77.2%Сам.

Code

Aider-Polyglot66.7%Сам.
Aider-Polyglot Edit60.4%Сам.
SWE-Bench Verified49.3%Сам.
SWE-Lancer18.0%Сам.
SWE-Lancer (IC-Diamond subset)7.4%Сам.

Communication

Multi-IF79.5%Сам.
TAU-bench Retail57.6%Сам.
Multi-Challenge39.9%Сам.
TAU-bench Airline32.4%Сам.

Factuality

SimpleQA15.0%Сам.

Finance

MMLU86.9%Сам.

General

IFEval93.9%Сам.
LiveBench84.6%Сам.
Multilingual MMLU80.7%Сам.
Internal API instruction following (hard)50.0%Сам.

Language

COLLIE98.7%Сам.

Long Context

OpenAI-MRCR: 2 needle 128k18.7%Сам.
ComplexFuncBench17.6%Сам.

Math

MATH97.9%Сам.
MGSM92.0%Сам.
AIME 202487.3%Сам.
FrontierMath9.2%Сам.

Reasoning

Graphwalks parents <128k58.3%Сам.
Graphwalks BFS <128k51.0%Сам.

Индексы оценки AA

Intelligence Index
25.9
Coding Index
17.9
Math 500
1.0
Mmlu Pro
0.8
Aime
0.8
Gpqa
0.7
Livecodebench
0.7
Scicode
0.4
Tau2
0.3
Hle
0.1
Terminalbench Hard
0.1

Оценки категорий LLM Stats

Writing
100
Finance
90
Healthcare
90
Instruction Following
90
Language
90
Legal
90
Biology
80
Chemistry
80
Math
80
Physics
80
General
70
Structured Output
60
Reasoning
60
Spatial Reasoning
50
Communication
50
Frontend Development
50
Tool Calling
40
Code
40
Long Context
20
Factuality
10

Цены

Цена ввода$1.1 / 1M tokens
Цена вывода$4.4 / 1M tokens
Смешанная цена (3:1)$1.925 / 1M tokens

Скорость

Токенов/сек135.1 tokens/s
Задержка первого токена10.07s
Время до первого ответа10.07s

Доступные провайдеры

(Внутренние единицы LS)

Нет данных провайдеров

Внешние ссылки