Claude 3.5 Sonnet
AnthropicClaudeProprietary
説明
Claude 3.5 Sonnet is a powerful AI model with industry-leading software engineering skills. It excels in coding, planning, and problem-solving, with significant improvements in agentic coding and tool use tasks. The model includes computer use capabilities in public beta, allowing it to interact with computer interfaces like a human user.
リリース日
2024-10-22
パラメータ
—
コンテキスト長
—
モダリティ
image, text
能力レーダー
80
general
70
coding
90
reasoning
60
science推定
60
agents
100
multimodal
専門的な科学ベンチマークが利用できない場合、Scienceは推論プロキシを使用して推定します。
ランキング
| ドメイン | #順位 | スコア | ソース |
|---|---|---|---|
| Agents & Tools | 99 | 18.0 | LS |
| Multimodal Ranking | 1 | 94.0 | LS |
ベンチマークスコア (LLM Stats)
Agents
OSWorld Extended
22.0%自己申告
OSWorld Screenshot-only
14.9%自己申告
Biology
GPQA
67.2%自己申告
Code
HumanEval
93.7%自己申告
SWE-Bench Verified
49.0%自己申告
Communication
TAU-bench Retail
69.2%自己申告
TAU-bench Airline
46.0%自己申告
Finance
MMLU
90.4%自己申告
MMLU-Pro
77.6%自己申告
General
MMMU
68.3%自己申告
Image To Text
DocVQA
95.2%自己申告
Language
BIG-Bench Hard
93.1%自己申告
Math
GSM8k
96.4%自己申告
MGSM
91.6%自己申告
DROP
87.1%自己申告
MATH
78.3%自己申告
MathVista
67.7%自己申告
Multimodal
AI2D
94.7%自己申告
ChartQA
90.8%自己申告
AA評価指数
AA評価データがありません
LLM Statsカテゴリスコア
Image To Text100
Language90
Math90
Vision80
Finance80
General80
Healthcare80
Legal80
Multimodal80
Reasoning80
Biology70
Chemistry70
Code70
Physics70
Tool Calling60
Communication60
Frontend Development50
価格設定
価格データがありません
速度
速度データがありません
利用可能なプロバイダー
(LS内部単位)プロバイダーデータがありません