Перейти к основному содержанию

Claude 2.1

AnthropicClaude
Дата выхода
2023-11-21
Параметры
Длина контекста
1.0M
Модальности
image, pdf, text

Радар способностей

18
general
16
coding
19
reasoning
22
scienceоцен.
80
agents
80
multimodal

Science использует прокси на основе рассуждений, когда специализированные научные бенчмарки недоступны.

Рейтинги

Домен#МестоОценкаИсточник
Рейтинг кодинга374
19.0
AA
Общий рейтинг447
21.0
AA
Математическое мышление309
19.0
AA
Наука438
21.0
AA

Оценки бенчмарков (LLM Stats)

Agents

Vending-Bench 2801759.0%Сам.
GDPval-AA1606.00 / 3000Сам.
DeepSearchQA91.3%Сам.
BrowseComp84.0%Сам.
CyberGym73.8%Сам.
OSWorld72.7%Сам.
Terminal-Bench 2.065.4%Сам.
MCP Atlas62.7%Сам.
Finance Agent60.7%Сам.
FrontierSWE56.0%Сам.
OpenRCA34.9%Сам.
Legal Agent Benchmark4.2%Сам.

Biology

GPQA91.3%Сам.

Code

SWE-Bench Verified80.8%Сам.
SWE-bench Multilingual77.8%Сам.

Communication

Tau2 Telecom99.3%Сам.
Tau2 Retail91.9%Сам.

General

MMMLU91.1%Сам.
MMMU-Pro77.3%Сам.
LiveBench76.3%Сам.
MRCR v2 (8-needle)76.0%Сам.

Healthcare

FigQA78.3%Сам.

Long Context

Graphwalks parents >128k95.4%Сам.
Graphwalks BFS >128k61.5%Сам.

Math

AIME 202599.8%Сам.
Humanity's Last Exam53.1%Сам.

Multimodal

CharXiv-R77.4%Сам.

Reasoning

ARC-AGI v268.8%Сам.

Индексы оценки AA

Coding Index
14.0
Intelligence Index
3.9
Mmlu Pro
0.5
Math 500
0.4
Gpqa
0.3
Livecodebench
0.2
Scicode
0.2
Hle
0.0
Aime
0.0

Оценки категорий LLM Stats

Agents
100
Finance
100
Legal
100
Reasoning
100
General
100
Communication
100
Physics
90
Search
90
Language
90
Biology
90
Chemistry
90
Math
80
Multimodal
80
Safety
80
Spatial Reasoning
80
Long Context
80
Frontend Development
80
Healthcare
80
Tool Calling
80
Code
70
Vision
70

Цены

Цена вводаБесплатно
Цена выводаБесплатно
Смешанная цена (3:1)Бесплатно
Цена чтения кэша$0.5 / 1M токенов
Цена записи кэша$6.25 / 1M токенов

Скорость

Токенов/сек0.0
Задержка первого токена0.00s
Время до первого ответа0.00s

Рейтинг цен провайдеров

Нет данных провайдеров

Внешние ссылки