メインコンテンツへスキップ

Claude 4 Sonnet (Non-reasoning)

AnthropicClaude
リリース日
2025-05-22
パラメータ
コンテキスト長
1.0M
モダリティ
image, pdf, text

能力レーダー

40
general
43
coding
50
reasoning
45
science推定
80
agents
80
multimodal

専門的な科学ベンチマークが利用できない場合、Scienceは推論プロキシを使用して推定します。

ランキング

ドメイン#順位スコアソース
コーディングランキング187
50.0
AA
総合ランキング161
55.0
AA
数学的推論182
50.0
AA
科学244
45.0
AA

ベンチマークスコア (LLM Stats)

Agents

Vending-Bench 2801759.0%自己申告
GDPval-AA1606.00 / 3000自己申告
DeepSearchQA91.3%自己申告
BrowseComp84.0%自己申告
CyberGym73.8%自己申告
OSWorld72.7%自己申告
Terminal-Bench 2.065.4%自己申告
MCP Atlas62.7%自己申告
Finance Agent60.7%自己申告
FrontierSWE56.0%自己申告
OpenRCA34.9%自己申告
Legal Agent Benchmark4.2%自己申告

Biology

GPQA91.3%自己申告

Code

SWE-Bench Verified80.8%自己申告
SWE-bench Multilingual77.8%自己申告

Communication

Tau2 Telecom99.3%自己申告
Tau2 Retail91.9%自己申告

General

MMMLU91.1%自己申告
MMMU-Pro77.3%自己申告
LiveBench76.3%自己申告
MRCR v2 (8-needle)76.0%自己申告

Healthcare

FigQA78.3%自己申告

Long Context

Graphwalks parents >128k95.4%自己申告
Graphwalks BFS >128k61.5%自己申告

Math

AIME 202599.8%自己申告
Humanity's Last Exam53.1%自己申告

Multimodal

CharXiv-R77.4%自己申告

Reasoning

ARC-AGI v268.8%自己申告

AA評価指数

Math Index
38.0
Intelligence Index
25.5
Math 500
0.9
Mmlu Pro
0.8
Gpqa
0.7
Tau2
0.5
Ifbench
0.5
Livecodebench
0.4
Lcr
0.4
Aime
0.4
Aime 25
0.4
Scicode
0.4
Terminalbench Hard
0.3
Hle
0.0

LLM Statsカテゴリスコア

Agents
100
Finance
100
Legal
100
Reasoning
100
General
100
Communication
100
Language
90
Physics
90
Search
90
Biology
90
Chemistry
90
Long Context
80
Math
80
Multimodal
80
Safety
80
Spatial Reasoning
80
Frontend Development
80
Healthcare
80
Tool Calling
80
Code
70
Vision
70

価格設定

入力価格$3 / 1Mトークン
出力価格$15 / 1Mトークン
混合価格(3:1)$6 / 1Mトークン
キャッシュ読み取り価格$0.5 / 1Mトークン
キャッシュ書き込み価格$6.25 / 1Mトークン

速度

トークン/秒0.0
初トークン遅延0.00s
初回答遅延0.00s

プロバイダー価格ランキング

プロバイダー価格ランキング

2 プロバイダー

最安: Anthropic最高: SAP AI Core
プロバイダー入力出力
1Anthropicプライマリ
$3
$15
2SAP AI Core
$3
$15

このモデルの異なるAPIプロバイダー間の価格を比較。

外部リンク