Перейти к основному содержанию

GPT-5 (ChatGPT)

OpenAIGPT
Дата выхода
2025-08-07
Параметры
Длина контекста
400K
Модальности
image, text

Радар способностей

34
general
51
coding
52
reasoning
45
scienceоцен.
80
agents
90
multimodal

Science использует прокси на основе рассуждений, когда специализированные научные бенчмарки недоступны.

Рейтинги

Оценки бенчмарков (LLM Stats)

Agents

BrowseComp54.9%Сам.

Biology

GPQA85.7%Сам.

Code

SWE-Lancer (IC-Diamond subset)100.0%Сам.
HumanEval93.4%Сам.
Aider-Polyglot88.0%Сам.
SWE-Bench Verified74.9%Сам.

Communication

Tau2 Telecom96.7%Сам.
Tau2 Retail81.1%Сам.
Multi-Challenge69.6%Сам.
Tau2 Airline62.6%Сам.

Finance

MMLU92.5%Сам.

General

MMMU84.2%Сам.
MMMU-Pro78.4%Сам.
Internal API instruction following (hard)64.0%Сам.
LongFact Objects0.8%Сам.
LongFact Concepts0.7%Сам.

Healthcare

VideoMMMU84.6%Сам.
HealthBench Hard1.6%Сам.

Language

COLLIE99.0%Сам.

Long Context

OpenAI-MRCR: 2 needle 128k95.2%Сам.
OpenAI-MRCR: 2 needle 256k86.8%Сам.

Math

AIME 202594.6%Сам.
HMMT 202593.3%Сам.
MATH84.7%Сам.
FrontierMath26.3%Сам.
Humanity's Last Exam24.8%Сам.

Multimodal

VideoMME w sub.86.7%Сам.
CharXiv-R81.1%Сам.

Reasoning

BrowseComp Long Context 128k90.0%Сам.
BrowseComp Long Context 256k88.8%Сам.
Graphwalks BFS <128k78.3%Сам.
Graphwalks parents <128k73.3%Сам.
ERQA65.7%Сам.
FActScore1.0%Сам.

Индексы оценки AA

Math Index
48.3
Intelligence Index
15.3
Mmlu Pro
0.8
Gpqa
0.7
Lcr
0.6
Livecodebench
0.5
Aime 25
0.5
Ifbench
0.5
Scicode
0.4
Terminalbench Hard
0.1
Hle
0.1
Tau2
0.0

Оценки категорий LLM Stats

Language
100
Long Context
100
Writing
100
Legal
90
Physics
90
Finance
90
Biology
90
Chemistry
90
Code
90
Video
90
Reasoning
80
General
80
Communication
80
Tool Calling
80
Math
70
Multimodal
70
Search
70
Frontend Development
70
Healthcare
70
Vision
70
Spatial Reasoning
60
Structured Output
60
Agents
50
Robotics
20

Цены

Цена ввода$1.25 / 1M токенов
Цена вывода$10 / 1M токенов
Смешанная цена (3:1)$3.438 / 1M токенов
Цена чтения кэша$0.125 / 1M токенов

Скорость

Токенов/сек193.1
Задержка первого токена0.49s
Время до первого ответа0.49s

Рейтинг цен провайдеров

Рейтинг цен провайдеров

10 провайдеров

Самый дешевый: OpenCode ZenСамый дорогой: Neon
ПровайдерВводВывод
1OpenCode ZenСамый дешевый
$1.07
$8.5
2OpenAIОсновной
$1.25
$10
3302.AI
$1.25
$10
4Abacus
$1.25
$10
5SAP AI Core
$1.25
$10
6Helicone
$1.25
$10
7Azure Cognitive Services
$1.25
$10
8LLM Gateway
$1.25
$10
9Azure
$1.25
$10
10Neon
$1.25
$10

Сравнение цен разных API-провайдеров для этой модели.

Внешние ссылки