GPT-5 (ChatGPT)

OpenAIGPT

Дата выхода

2025-08-07

Параметры

—

Длина контекста

400K

Модальности

image, text

Радар способностей

general

coding

reasoning

scienceоцен.

agents

multimodal

Science использует прокси на основе рассуждений, когда специализированные научные бенчмарки недоступны.

Рейтинги

Домен	#Место	Оценка	Источник
Агентные возможности	62	55.0	LS
Рейтинг кодинга	161	54.0	AA
Общий рейтинг	290	37.0	AA
Математическое мышление	186	49.0	AA
Мультимодальный рейтинг	25	84.0	LS
Рассуждения	45	72.0	LS
Наука	217	47.0	AA

Оценки бенчмарков (LLM Stats)

Agents

BrowseComp

54.9%Сам.

Biology

GPQA

85.7%Сам.

Code

SWE-Lancer (IC-Diamond subset)

100.0%Сам.

HumanEval

93.4%Сам.

Aider-Polyglot

88.0%Сам.

SWE-Bench Verified

74.9%Сам.

Communication

Tau2 Telecom

96.7%Сам.

Tau2 Retail

81.1%Сам.

Multi-Challenge

69.6%Сам.

Tau2 Airline

62.6%Сам.

Finance

MMLU

92.5%Сам.

General

MMMU

84.2%Сам.

MMMU-Pro

78.4%Сам.

Internal API instruction following (hard)

64.0%Сам.

LongFact Objects

0.8%Сам.

LongFact Concepts

0.7%Сам.

Healthcare

VideoMMMU

84.6%Сам.

HealthBench Hard

1.6%Сам.

Language

COLLIE

99.0%Сам.

Long Context

OpenAI-MRCR: 2 needle 128k

95.2%Сам.

OpenAI-MRCR: 2 needle 256k

86.8%Сам.

Math

AIME 2025

94.6%Сам.

HMMT 2025

93.3%Сам.

MATH

84.7%Сам.

FrontierMath

26.3%Сам.

Humanity's Last Exam

24.8%Сам.

Multimodal

VideoMME w sub.

86.7%Сам.

CharXiv-R

81.1%Сам.

Reasoning

BrowseComp Long Context 128k

90.0%Сам.

BrowseComp Long Context 256k

88.8%Сам.

Graphwalks BFS <128k

78.3%Сам.

Graphwalks parents <128k

73.3%Сам.

ERQA

65.7%Сам.

FActScore

1.0%Сам.

Индексы оценки AA

Math Index

48.3

Intelligence Index

15.3

Mmlu Pro

0.8

Gpqa

0.7

Lcr

0.6

Livecodebench

0.5

Aime 25

0.5

Ifbench

0.5

Scicode

0.4

Terminalbench Hard

0.1

Hle

0.1

Tau2

0.0

Оценки категорий LLM Stats

Language

100

Long Context

100

Writing

100

Legal

Physics

Finance

Biology

Chemistry

Code

Video

Reasoning

General

Communication

Tool Calling

Math

Multimodal

Frontend Development

Healthcare

Vision

Spatial Reasoning

Structured Output

Agents

Robotics

Цены

Цена ввода$1.25 / 1M токенов

Цена вывода$10 / 1M токенов

Смешанная цена (3:1)$3.438 / 1M токенов

Цена чтения кэша$0.125 / 1M токенов

Скорость

Токенов/сек193.1

Задержка первого токена0.49s

Время до первого ответа0.49s

Рейтинг цен провайдеров

10 провайдеров

Самый дешевый: OpenCode ZenСамый дорогой: Neon

ПровайдерВводВывод

1OpenCode ZenСамый дешевый

$1.07

$8.5

2OpenAIОсновной

$1.25

$10

3302.AI

$1.25

$10

4Abacus

$1.25

$10

5SAP AI Core

$1.25

$10

6Helicone

$1.25

$10

7Azure Cognitive Services

$1.25

$10

8LLM Gateway

$1.25

$10

9Azure

$1.25

$10

10Neon

$1.25

$10

Сравнение цен разных API-провайдеров для этой модели.

Внешние ссылки

Artificial Analysis