o3-mini

OpenAIOpenAI o-seriesProprietary

Описание

A smaller variant of O3, expected to offer enhanced multimodal capabilities, improved reasoning, and more efficient resource utilization compared to previous models while maintaining strong performance on core tasks.

Дата выхода

2025-01-31

Параметры

—

Длина контекста

200K

Модальности

text

Радар способностей

general

coding

reasoning

scienceоцен.

agents

multimodal

Science использует прокси на основе рассуждений, когда специализированные научные бенчмарки недоступны.

Рейтинги

Домен	#Место	Оценка	Источник
Рейтинг кодинга	217	45.0	AA
Общий рейтинг	234	45.0	AA
Математическое мышление	50	89.0	AA
Рассуждения	83	54.0	LS
Наука	168	52.0	AA

Оценки бенчмарков (LLM Stats)

Biology

GPQA

77.2%Сам.

Code

Aider-Polyglot

66.7%Сам.

Aider-Polyglot Edit

60.4%Сам.

SWE-Bench Verified

49.3%Сам.

SWE-Lancer

18.0%Сам.

SWE-Lancer (IC-Diamond subset)

7.4%Сам.

Communication

Multi-IF

79.5%Сам.

TAU-bench Retail

57.6%Сам.

Multi-Challenge

39.9%Сам.

TAU-bench Airline

32.4%Сам.

Factuality

SimpleQA

15.0%Сам.

Finance

MMLU

86.9%Сам.

General

IFEval

93.9%Сам.

LiveBench

84.6%Сам.

Multilingual MMLU

80.7%Сам.

Internal API instruction following (hard)

50.0%Сам.

Language

COLLIE

98.7%Сам.

Long Context

OpenAI-MRCR: 2 needle 128k

18.7%Сам.

ComplexFuncBench

17.6%Сам.

Math

MATH

97.9%Сам.

MGSM

92.0%Сам.

AIME 2024

87.3%Сам.

FrontierMath

9.2%Сам.

Reasoning

Graphwalks parents <128k

58.3%Сам.

Graphwalks BFS <128k

51.0%Сам.

Индексы оценки AA

Intelligence Index

19.0

Math 500

1.0

Mmlu Pro

0.8

Aime

0.8

Gpqa

0.7

Livecodebench

0.7

Scicode

0.4

Tau2

0.3

Hle

0.1

Terminalbench Hard

0.1

Оценки категорий LLM Stats

Writing

100

Instruction Following

Language

Legal

Finance

Healthcare

Math

Physics

Biology

Chemistry

General

Reasoning

Structured Output

Spatial Reasoning

Frontend Development

Communication

Code

Tool Calling

Long Context

Factuality

Цены

Цена ввода$1.1 / 1M токенов

Цена вывода$4.4 / 1M токенов

Смешанная цена (3:1)$1.925 / 1M токенов

Цена чтения кэша$0.55 / 1M токенов

Скорость

Токенов/сек229.8

Задержка первого токена5.43s

Время до первого ответа5.43s

Рейтинг цен провайдеров

9 провайдеров

Самый дешевый: NanoGPTСамый дорогой: Azure

ПровайдерВводВывод

1NanoGPTСамый дешевый

$1.088

$4.3996

2OpenAIОсновной

$1.1

$4.4

3Abacus

$1.1

$4.4

4Jiekou.AI

$1.1

$4.4

5Helicone

$1.1

$4.4

6Azure Cognitive Services

$1.1

$4.4

7DigitalOcean

$1.1

$4.4

8LLM Gateway

$1.1

$4.4

9Azure

$1.1

$4.4

Сравнение цен разных API-провайдеров для этой модели.

Внешние ссылки

LLM Stats Artificial Analysis