GPT-4o (Aug '24)

OpenAIGPTProprietary

Описание

GPT-4o ('o' for 'omni') is a multimodal AI model that accepts text, audio, image, and video inputs, and generates text, audio, and image outputs. It matches GPT-4 Turbo performance on text and code, with improvements in non-English languages, vision, and audio understanding.

Дата выхода

2024-08-06

Параметры

—

Длина контекста

128K

Модальности

image, pdf, text

Радар способностей

general

coding

reasoning

scienceоцен.

agents

multimodal

Science использует прокси на основе рассуждений, когда специализированные научные бенчмарки недоступны.

Рейтинги

Домен	#Место	Оценка	Источник
Рейтинг кодинга	287	31.0	AA
Общий рейтинг	425	23.0	AA
Математическое мышление	196	46.0	AA
Мультимодальный рейтинг	30	81.0	LS
Рассуждения	99	37.0	LS
Наука	315	36.0	AA

Оценки бенчмарков (LLM Stats)

Biology

GPQA

70.1%Сам.

Code

SWE-Bench Verified

33.2%Сам.

SWE-Lancer

32.6%Сам.

Aider-Polyglot

30.7%Сам.

Aider-Polyglot Edit

18.2%Сам.

SWE-Lancer (IC-Diamond subset)

12.4%Сам.

Communication

Tau2 Retail

63.4%Сам.

Multi-IF

60.9%Сам.

TAU-bench Retail

60.3%Сам.

Tau2 Airline

45.5%Сам.

TAU-bench Airline

42.8%Сам.

Multi-Challenge

40.3%Сам.

Tau2 Telecom

23.5%Сам.

Factuality

SimpleQA

38.2%Сам.

Finance

MMLU

85.7%Сам.

MMLU-Pro

74.7%Сам.

General

MMMLU

81.4%Сам.

IFEval

81.0%Сам.

MMMU

72.2%Сам.

MMMU-Pro

59.9%Сам.

Internal API instruction following (hard)

29.2%Сам.

Healthcare

VideoMMMU

61.2%Сам.

Image To Text

DocVQA

92.8%Сам.

Language

COLLIE

61.0%Сам.

Long Context

EgoSchema

72.2%Сам.

ComplexFuncBench

66.5%Сам.

OpenAI-MRCR: 2 needle 128k

31.9%Сам.

Math

MathVista

61.4%Сам.

AIME 2024

13.1%Сам.

Humanity's Last Exam

5.3%Сам.

Multimodal

AI2D

94.2%Сам.

ChartQA

85.7%Сам.

CharXiv-D

85.3%Сам.

CharXiv-R

58.8%Сам.

Reasoning

Graphwalks BFS <128k

41.7%Сам.

Graphwalks parents <128k

35.4%Сам.

ERQA

35.2%Сам.

Video

ActivityNet

61.9%Сам.

Индексы оценки AA

Intelligence Index

9.6

Math 500

0.8

Gpqa

0.5

Ifbench

0.4

Lcr

0.3

Scicode

0.3

Livecodebench

0.3

Tau2

0.3

Aime

0.1

Terminalbench Hard

0.1

Hle

0.0

Оценки категорий LLM Stats

Image To Text

Legal

Finance

Instruction Following

Language

Multimodal

Physics

Healthcare

Biology

Chemistry

Vision

Long Context

Structured Output

General

Writing

Math

Reasoning

Communication

Tool Calling

Spatial Reasoning

Factuality

Frontend Development

Code

Цены

Цена ввода$2.5 / 1M токенов

Цена вывода$10 / 1M токенов

Смешанная цена (3:1)$4.375 / 1M токенов

Цена чтения кэша$1.25 / 1M токенов

Скорость

Токенов/сек113.3

Задержка первого токена0.56s

Время до первого ответа0.56s

Рейтинг цен провайдеров

12 провайдеров

Самый дешевый: OpenAIСамый дорогой: Venice AI

ПровайдерВводВывод

1OpenAIСамый дешевый

$0.00001

2Azure

$0.00001

3NanoGPT

$2.499

$9.996

4Abacus

$2.5

$10

5OpenRouter

$2.5

$10

6Kilo Gateway

$2.5

$10

7Cloudflare AI Gateway

$2.5

$10

8DigitalOcean

$2.5

$10

9Vercel AI Gateway

$2.5

$10

10OrcaRouter

$2.5

$10

11Merge Gateway

$2.5

$10

12Venice AI

$3.125

$12.5

Сравнение цен разных API-провайдеров для этой модели.

Внешние ссылки

LLM Stats Artificial Analysis