Перейти к основному содержанию

GPT-4o (Aug '24)

OpenAIGPTProprietary

Описание

GPT-4o ('o' for 'omni') is a multimodal AI model that accepts text, audio, image, and video inputs, and generates text, audio, and image outputs. It matches GPT-4 Turbo performance on text and code, with improvements in non-English languages, vision, and audio understanding.

Дата выхода
2024-08-06
Параметры
Длина контекста
128K
Модальности
image, pdf, text

Радар способностей

8
general
32
coding
40
reasoning
36
scienceоцен.
50
agents
90
multimodal

Science использует прокси на основе рассуждений, когда специализированные научные бенчмарки недоступны.

Рейтинги

Оценки бенчмарков (LLM Stats)

Biology

GPQA70.1%Сам.

Code

SWE-Bench Verified33.2%Сам.
SWE-Lancer32.6%Сам.
Aider-Polyglot30.7%Сам.
Aider-Polyglot Edit18.2%Сам.
SWE-Lancer (IC-Diamond subset)12.4%Сам.

Communication

Tau2 Retail63.4%Сам.
Multi-IF60.9%Сам.
TAU-bench Retail60.3%Сам.
Tau2 Airline45.5%Сам.
TAU-bench Airline42.8%Сам.
Multi-Challenge40.3%Сам.
Tau2 Telecom23.5%Сам.

Factuality

SimpleQA38.2%Сам.

Finance

MMLU85.7%Сам.
MMLU-Pro74.7%Сам.

General

MMMLU81.4%Сам.
IFEval81.0%Сам.
MMMU72.2%Сам.
MMMU-Pro59.9%Сам.
Internal API instruction following (hard)29.2%Сам.

Healthcare

VideoMMMU61.2%Сам.

Image To Text

DocVQA92.8%Сам.

Language

COLLIE61.0%Сам.

Long Context

EgoSchema72.2%Сам.
ComplexFuncBench66.5%Сам.
OpenAI-MRCR: 2 needle 128k31.9%Сам.

Math

MathVista61.4%Сам.
AIME 202413.1%Сам.
Humanity's Last Exam5.3%Сам.

Multimodal

AI2D94.2%Сам.
ChartQA85.7%Сам.
CharXiv-D85.3%Сам.
CharXiv-R58.8%Сам.

Reasoning

Graphwalks BFS <128k41.7%Сам.
Graphwalks parents <128k35.4%Сам.
ERQA35.2%Сам.

Video

ActivityNet61.9%Сам.

Индексы оценки AA

Intelligence Index
9.6
Math 500
0.8
Gpqa
0.5
Ifbench
0.4
Lcr
0.3
Scicode
0.3
Livecodebench
0.3
Tau2
0.3
Aime
0.1
Terminalbench Hard
0.1
Hle
0.0

Оценки категорий LLM Stats

Image To Text
90
Legal
80
Finance
80
Instruction Following
70
Language
70
Multimodal
70
Physics
70
Healthcare
70
Biology
70
Chemistry
70
Vision
70
Long Context
60
Structured Output
60
General
60
Writing
60
Math
50
Reasoning
50
Communication
50
Tool Calling
50
Spatial Reasoning
40
Factuality
40
Frontend Development
30
Code
30

Цены

Цена ввода$2.5 / 1M токенов
Цена вывода$10 / 1M токенов
Смешанная цена (3:1)$4.375 / 1M токенов
Цена чтения кэша$1.25 / 1M токенов

Скорость

Токенов/сек113.3
Задержка первого токена0.56s
Время до первого ответа0.56s

Рейтинг цен провайдеров

Рейтинг цен провайдеров

12 провайдеров

Самый дешевый: OpenAIСамый дорогой: Venice AI
ПровайдерВводВывод
1OpenAIСамый дешевый
$0
$0.00001
2Azure
$0
$0.00001
3NanoGPT
$2.499
$9.996
4Abacus
$2.5
$10
5OpenRouter
$2.5
$10
6Kilo Gateway
$2.5
$10
7Cloudflare AI Gateway
$2.5
$10
8DigitalOcean
$2.5
$10
9Vercel AI Gateway
$2.5
$10
10OrcaRouter
$2.5
$10
11Merge Gateway
$2.5
$10
12Venice AI
$3.125
$12.5

Сравнение цен разных API-провайдеров для этой модели.

Внешние ссылки