Перейти к основному содержанию

Gemini 2.0 Pro Experimental (Feb '25)

GoogleGemini
Дата выхода
2025-02-05
Параметры
Длина контекста
1.0M
Модальности
audio, image, pdf, text, video

Радар способностей

32
general
29
coding
58
reasoning
40
scienceоцен.
60
agents
80
multimodal

Science использует прокси на основе рассуждений, когда специализированные научные бенчмарки недоступны.

Рейтинги

Домен#МестоОценкаИсточник
Рейтинг кодинга264
35.0
AA
Общий рейтинг252
42.0
AA
Математическое мышление138
65.0
AA
Наука267
42.0
AA

Оценки бенчмарков (LLM Stats)

Agents

Vending-Bench 2363500.0%Сам.
t2-bench90.2%Сам.
MCP Atlas57.4%Сам.
Toolathlon49.4%Сам.
Terminal-Bench 2.047.6%Сам.
Finance Agent v242.5%Сам.
Legal Agent Benchmark0.0%Сам.

Biology

GPQA90.4%Сам.

Code

LiveCodeBench Pro2316.00 / 3000Сам.
SWE-Bench Verified78.0%Сам.

Factuality

SimpleQA68.7%Сам.
FACTS Grounding61.9%Сам.

General

Global PIQA92.8%Сам.
MMMLU91.8%Сам.
MMMU-Pro81.2%Сам.
LiveBench72.4%Сам.
MRCR v2 (8-needle)22.1%Сам.

Grounding

ScreenSpot Pro69.1%Сам.

Healthcare

VideoMMMU86.9%Сам.

Math

AIME 202599.7%Сам.
Humanity's Last Exam43.5%Сам.

Multimodal

CharXiv-R80.3%Сам.
OmniDocBench 1.512.1%Сам.

Reasoning

ARC-AGI v233.6%Сам.

Индексы оценки AA

Coding Index
25.5
Intelligence Index
11.8
Math 500
0.9
Mmlu Pro
0.8
Gpqa
0.6
Aime
0.4
Livecodebench
0.3
Scicode
0.3
Hle
0.1

Оценки категорий LLM Stats

Code
100
Agents
100
General
100
Reasoning
100
Language
90
Physics
90
Biology
90
Chemistry
90
Math
80
Frontend Development
80
Multimodal
70
Factuality
70
Grounding
70
Tool Calling
60
Vision
60
Spatial Reasoning
50
Healthcare
50
Finance
40
Long Context
20
Structured Output
10
Legal
0

Цены

Цена вводаБесплатно
Цена выводаБесплатно
Смешанная цена (3:1)Бесплатно
Цена чтения кэша$0.05 / 1M токенов

Скорость

Токенов/сек0.0
Задержка первого токена0.00s
Время до первого ответа0.00s

Рейтинг цен провайдеров

Нет данных провайдеров

Внешние ссылки