Перейти к основному содержанию

o3-mini

OpenAIOpenAI o-seriesProprietary

Описание

A smaller variant of O3, expected to offer enhanced multimodal capabilities, improved reasoning, and more efficient resource utilization compared to previous models while maintaining strong performance on core tasks.

Дата выхода
2025-01-31
Параметры
Длина контекста
200K
Модальности
text

Радар способностей

35
general
65
coding
83
reasoning
49
scienceоцен.
40
agents
0
multimodal

Science использует прокси на основе рассуждений, когда специализированные научные бенчмарки недоступны.

Рейтинги

Домен#МестоОценкаИсточник
Рейтинг кодинга217
45.0
AA
Общий рейтинг234
45.0
AA
Математическое мышление50
89.0
AA
Рассуждения83
54.0
LS
Наука168
52.0
AA

Оценки бенчмарков (LLM Stats)

Biology

GPQA77.2%Сам.

Code

Aider-Polyglot66.7%Сам.
Aider-Polyglot Edit60.4%Сам.
SWE-Bench Verified49.3%Сам.
SWE-Lancer18.0%Сам.
SWE-Lancer (IC-Diamond subset)7.4%Сам.

Communication

Multi-IF79.5%Сам.
TAU-bench Retail57.6%Сам.
Multi-Challenge39.9%Сам.
TAU-bench Airline32.4%Сам.

Factuality

SimpleQA15.0%Сам.

Finance

MMLU86.9%Сам.

General

IFEval93.9%Сам.
LiveBench84.6%Сам.
Multilingual MMLU80.7%Сам.
Internal API instruction following (hard)50.0%Сам.

Language

COLLIE98.7%Сам.

Long Context

OpenAI-MRCR: 2 needle 128k18.7%Сам.
ComplexFuncBench17.6%Сам.

Math

MATH97.9%Сам.
MGSM92.0%Сам.
AIME 202487.3%Сам.
FrontierMath9.2%Сам.

Reasoning

Graphwalks parents <128k58.3%Сам.
Graphwalks BFS <128k51.0%Сам.

Индексы оценки AA

Intelligence Index
19.0
Math 500
1.0
Mmlu Pro
0.8
Aime
0.8
Gpqa
0.7
Livecodebench
0.7
Scicode
0.4
Tau2
0.3
Hle
0.1
Terminalbench Hard
0.1

Оценки категорий LLM Stats

Writing
100
Instruction Following
90
Language
90
Legal
90
Finance
90
Healthcare
90
Math
80
Physics
80
Biology
80
Chemistry
80
General
70
Reasoning
60
Structured Output
60
Spatial Reasoning
50
Frontend Development
50
Communication
50
Code
40
Tool Calling
40
Long Context
20
Factuality
10

Цены

Цена ввода$1.1 / 1M токенов
Цена вывода$4.4 / 1M токенов
Смешанная цена (3:1)$1.925 / 1M токенов
Цена чтения кэша$0.55 / 1M токенов

Скорость

Токенов/сек229.8
Задержка первого токена5.43s
Время до первого ответа5.43s

Рейтинг цен провайдеров

Рейтинг цен провайдеров

9 провайдеров

Самый дешевый: NanoGPTСамый дорогой: Azure
ПровайдерВводВывод
1NanoGPTСамый дешевый
$1.088
$4.3996
2OpenAIОсновной
$1.1
$4.4
3Abacus
$1.1
$4.4
4Jiekou.AI
$1.1
$4.4
5Helicone
$1.1
$4.4
6Azure Cognitive Services
$1.1
$4.4
7DigitalOcean
$1.1
$4.4
8LLM Gateway
$1.1
$4.4
9Azure
$1.1
$4.4

Сравнение цен разных API-провайдеров для этой модели.

Внешние ссылки