Claude 4 Opus (Reasoning)

AnthropicClaude

출시일

2025-05-22

파라미터

—

컨텍스트 길이

1.0M

모달리티

image, pdf, text

능력 레이더

general

coding

reasoning

science추정

agents

multimodal

전용 과학 벤치마크가 없을 때 Science는 추론 프록시를 사용하여 추정합니다.

랭킹

도메인	#순위	점수	소스
코딩 랭킹	163	54.0	AA
종합 랭킹	95	66.0	AA
수학 추론	85	80.0	AA
과학	136	56.0	AA

벤치마크 점수 (LLM Stats)

Agents

Vending-Bench 2

801759.0%자체 보고

GDPval-AA

1606.00 / 3000자체 보고

DeepSearchQA

91.3%자체 보고

BrowseComp

84.0%자체 보고

CyberGym

73.8%자체 보고

OSWorld

72.7%자체 보고

Terminal-Bench 2.0

65.4%자체 보고

MCP Atlas

62.7%자체 보고

Finance Agent

60.7%자체 보고

FrontierSWE

56.0%자체 보고

OpenRCA

34.9%자체 보고

Legal Agent Benchmark

4.2%자체 보고

Biology

GPQA

91.3%자체 보고

Code

SWE-Bench Verified

80.8%자체 보고

SWE-bench Multilingual

77.8%자체 보고

Communication

Tau2 Telecom

99.3%자체 보고

Tau2 Retail

91.9%자체 보고

General

MMMLU

91.1%자체 보고

MMMU-Pro

77.3%자체 보고

LiveBench

76.3%자체 보고

MRCR v2 (8-needle)

76.0%자체 보고

Healthcare

FigQA

78.3%자체 보고

Long Context

Graphwalks parents >128k

95.4%자체 보고

Graphwalks BFS >128k

61.5%자체 보고

Math

AIME 2025

99.8%자체 보고

Humanity's Last Exam

53.1%자체 보고

Multimodal

CharXiv-R

77.4%자체 보고

Reasoning

ARC-AGI v2

68.8%자체 보고

AA 평가 지수

Math Index

73.3

Intelligence Index

31.0

Math 500

1.0

Mmlu Pro

0.9

Gpqa

0.8

Aime

0.8

Tau2

0.7

Aime 25

0.7

Livecodebench

0.6

Ifbench

0.5

Scicode

0.4

Lcr

0.3

Terminalbench Hard

0.3

Hle

0.1

LLM Stats 카테고리 점수

Agents

100

Finance

100

Legal

100

Reasoning

100

General

100

Communication

100

Language

Physics

Biology

Chemistry

Long Context

Math

Multimodal

Safety

Spatial Reasoning

Frontend Development

Healthcare

Tool Calling

Code

Vision

가격

입력 가격$15 / 1M 토큰

출력 가격$75 / 1M 토큰

혼합 가격 (3:1)$30 / 1M 토큰

캐시 읽기 가격$0.5 / 1M 토큰

캐시 쓰기 가격$6.25 / 1M 토큰

속도

토큰/초0.0

첫 토큰 지연0.00s

첫 응답 지연0.00s

공급자 가격 순위

1개 공급자

공급자입력출력

1Anthropic주요

$15

$75

이 모델의 다양한 API 공급자 간 가격 비교.

외부 링크

Artificial Analysis