Перейти к основному содержанию

GPT-4o (March 2025, chatgpt-4o-latest)

OpenAIGPT
Дата выхода
2025-03-27
Параметры
Длина контекста
400K
Модальности
image, text

Радар способностей

32
general
41
coding
41
reasoning
43
scienceоцен.
80
agents
90
multimodal

Science использует прокси на основе рассуждений, когда специализированные научные бенчмарки недоступны.

Рейтинги

Домен#МестоОценкаИсточник
Рейтинг кодинга210
46.0
AA
Общий рейтинг250
42.0
AA
Математическое мышление221
40.0
AA
Наука240
45.0
AA

Оценки бенчмарков (LLM Stats)

Agents

BrowseComp54.9%Сам.

Biology

GPQA85.7%Сам.

Code

SWE-Lancer (IC-Diamond subset)100.0%Сам.
HumanEval93.4%Сам.
Aider-Polyglot88.0%Сам.
SWE-Bench Verified74.9%Сам.

Communication

Tau2 Telecom96.7%Сам.
Tau2 Retail81.1%Сам.
Multi-Challenge69.6%Сам.
Tau2 Airline62.6%Сам.

Finance

MMLU92.5%Сам.

General

MMMU84.2%Сам.
MMMU-Pro78.4%Сам.
Internal API instruction following (hard)64.0%Сам.
LongFact Objects0.8%Сам.
LongFact Concepts0.7%Сам.

Healthcare

VideoMMMU84.6%Сам.
HealthBench Hard1.6%Сам.

Language

COLLIE99.0%Сам.

Long Context

OpenAI-MRCR: 2 needle 128k95.2%Сам.
OpenAI-MRCR: 2 needle 256k86.8%Сам.

Math

AIME 202594.6%Сам.
HMMT 202593.3%Сам.
MATH84.7%Сам.
FrontierMath26.3%Сам.
Humanity's Last Exam24.8%Сам.

Multimodal

VideoMME w sub.86.7%Сам.
CharXiv-R81.1%Сам.

Reasoning

BrowseComp Long Context 128k90.0%Сам.
BrowseComp Long Context 256k88.8%Сам.
Graphwalks BFS <128k78.3%Сам.
Graphwalks parents <128k73.3%Сам.
ERQA65.7%Сам.
FActScore1.0%Сам.

Индексы оценки AA

Math Index
25.7
Intelligence Index
12.3
Math 500
0.9
Mmlu Pro
0.8
Gpqa
0.7
Livecodebench
0.4
Scicode
0.4
Aime
0.3
Aime 25
0.3
Hle
0.1

Оценки категорий LLM Stats

Language
100
Long Context
100
Writing
100
Legal
90
Physics
90
Finance
90
Biology
90
Chemistry
90
Code
90
Video
90
Reasoning
80
General
80
Communication
80
Tool Calling
80
Math
70
Multimodal
70
Search
70
Frontend Development
70
Healthcare
70
Vision
70
Spatial Reasoning
60
Structured Output
60
Agents
50
Robotics
20

Цены

Цена вводаБесплатно
Цена выводаБесплатно
Смешанная цена (3:1)Бесплатно
Цена чтения кэша$0.125 / 1M токенов

Скорость

Токенов/сек0.0
Задержка первого токена0.00s
Время до первого ответа0.00s

Рейтинг цен провайдеров

Нет данных провайдеров

Внешние ссылки