GPT-4o (March 2025, chatgpt-4o-latest)
OpenAIGPT
Дата выхода
2025-03-27
Параметры
—
Длина контекста
400K
Модальности
image, text
Радар способностей
32
general
41
coding
41
reasoning
43
scienceоцен.
80
agents
90
multimodal
Science использует прокси на основе рассуждений, когда специализированные научные бенчмарки недоступны.
Рейтинги
| Домен | #Место | Оценка | Источник |
|---|---|---|---|
| Рейтинг кодинга | 210 | 46.0 | AA |
| Общий рейтинг | 250 | 42.0 | AA |
| Математическое мышление | 221 | 40.0 | AA |
| Наука | 240 | 45.0 | AA |
Оценки бенчмарков (LLM Stats)
Agents
BrowseComp
54.9%Сам.
Biology
GPQA
85.7%Сам.
Code
SWE-Lancer (IC-Diamond subset)
100.0%Сам.
HumanEval
93.4%Сам.
Aider-Polyglot
88.0%Сам.
SWE-Bench Verified
74.9%Сам.
Communication
Tau2 Telecom
96.7%Сам.
Tau2 Retail
81.1%Сам.
Multi-Challenge
69.6%Сам.
Tau2 Airline
62.6%Сам.
Finance
MMLU
92.5%Сам.
General
MMMU
84.2%Сам.
MMMU-Pro
78.4%Сам.
Internal API instruction following (hard)
64.0%Сам.
LongFact Objects
0.8%Сам.
LongFact Concepts
0.7%Сам.
Healthcare
VideoMMMU
84.6%Сам.
HealthBench Hard
1.6%Сам.
Language
COLLIE
99.0%Сам.
Long Context
OpenAI-MRCR: 2 needle 128k
95.2%Сам.
OpenAI-MRCR: 2 needle 256k
86.8%Сам.
Math
AIME 2025
94.6%Сам.
HMMT 2025
93.3%Сам.
MATH
84.7%Сам.
FrontierMath
26.3%Сам.
Humanity's Last Exam
24.8%Сам.
Multimodal
VideoMME w sub.
86.7%Сам.
CharXiv-R
81.1%Сам.
Reasoning
BrowseComp Long Context 128k
90.0%Сам.
BrowseComp Long Context 256k
88.8%Сам.
Graphwalks BFS <128k
78.3%Сам.
Graphwalks parents <128k
73.3%Сам.
ERQA
65.7%Сам.
FActScore
1.0%Сам.
Индексы оценки AA
Math Index25.7
Intelligence Index12.3
Math 5000.9
Mmlu Pro0.8
Gpqa0.7
Livecodebench0.4
Scicode0.4
Aime0.3
Aime 250.3
Hle0.1
Оценки категорий LLM Stats
Language100
Long Context100
Writing100
Legal90
Physics90
Finance90
Biology90
Chemistry90
Code90
Video90
Reasoning80
General80
Communication80
Tool Calling80
Math70
Multimodal70
Search70
Frontend Development70
Healthcare70
Vision70
Spatial Reasoning60
Structured Output60
Agents50
Robotics20
Цены
Цена вводаБесплатно
Цена выводаБесплатно
Смешанная цена (3:1)Бесплатно
Цена чтения кэша$0.125 / 1M токенов
Скорость
Токенов/сек0.0
Задержка первого токена0.00s
Время до первого ответа0.00s
Рейтинг цен провайдеров
Нет данных провайдеров