メインコンテンツへスキップ

Claude 2.1

AnthropicClaude
リリース日
2023-11-21
パラメータ
コンテキスト長
1.0M
モダリティ
image, pdf, text

能力レーダー

18
general
16
coding
19
reasoning
22
science推定
80
agents
80
multimodal

専門的な科学ベンチマークが利用できない場合、Scienceは推論プロキシを使用して推定します。

ランキング

ドメイン#順位スコアソース
コーディングランキング374
19.0
AA
総合ランキング447
21.0
AA
数学的推論309
19.0
AA
科学438
21.0
AA

ベンチマークスコア (LLM Stats)

Agents

Vending-Bench 2801759.0%自己申告
GDPval-AA1606.00 / 3000自己申告
DeepSearchQA91.3%自己申告
BrowseComp84.0%自己申告
CyberGym73.8%自己申告
OSWorld72.7%自己申告
Terminal-Bench 2.065.4%自己申告
MCP Atlas62.7%自己申告
Finance Agent60.7%自己申告
FrontierSWE56.0%自己申告
OpenRCA34.9%自己申告
Legal Agent Benchmark4.2%自己申告

Biology

GPQA91.3%自己申告

Code

SWE-Bench Verified80.8%自己申告
SWE-bench Multilingual77.8%自己申告

Communication

Tau2 Telecom99.3%自己申告
Tau2 Retail91.9%自己申告

General

MMMLU91.1%自己申告
MMMU-Pro77.3%自己申告
LiveBench76.3%自己申告
MRCR v2 (8-needle)76.0%自己申告

Healthcare

FigQA78.3%自己申告

Long Context

Graphwalks parents >128k95.4%自己申告
Graphwalks BFS >128k61.5%自己申告

Math

AIME 202599.8%自己申告
Humanity's Last Exam53.1%自己申告

Multimodal

CharXiv-R77.4%自己申告

Reasoning

ARC-AGI v268.8%自己申告

AA評価指数

Coding Index
14.0
Intelligence Index
3.9
Mmlu Pro
0.5
Math 500
0.4
Gpqa
0.3
Livecodebench
0.2
Scicode
0.2
Hle
0.0
Aime
0.0

LLM Statsカテゴリスコア

Agents
100
Finance
100
Legal
100
Reasoning
100
General
100
Communication
100
Language
90
Physics
90
Search
90
Biology
90
Chemistry
90
Long Context
80
Math
80
Multimodal
80
Safety
80
Spatial Reasoning
80
Frontend Development
80
Healthcare
80
Tool Calling
80
Code
70
Vision
70

価格設定

入力価格無料
出力価格無料
混合価格(3:1)無料
キャッシュ読み取り価格$0.5 / 1Mトークン
キャッシュ書き込み価格$6.25 / 1Mトークン

速度

トークン/秒0.0
初トークン遅延0.00s
初回答遅延0.00s

プロバイダー価格ランキング

プロバイダーデータがありません

外部リンク