메인 콘텐츠로 건너뛰기

Hermes 4 - Llama-3.1 405B (Reasoning)

Nous ResearchLlama

출시일

2025-08-27

파라미터

—

컨텍스트 길이

—

모달리티

—

능력 레이더

31

general

59

coding

70

reasoning

44

science추정

80

agents

0

multimodal

전용 과학 벤치마크가 없을 때 Science는 추론 프록시를 사용하여 추정합니다.

랭킹

도메인	#순위	점수	소스
코딩 랭킹	243	40.0	AA
종합 랭킹	316	34.0	AA
수학 추론	120	70.0	AA
과학	238	45.0	AA

벤치마크 점수 (LLM Stats)

Biology

GPQA

50.5%자체 보고

Code

HumanEval

88.4%자체 보고

Finance

MMLU

86.0%자체 보고

MMLU-Pro

68.9%자체 보고

General

IFEval

92.1%자체 보고

MBPP EvalPlus

87.6%자체 보고

BFCL v2

77.3%자체 보고

Math

MGSM

91.1%자체 보고

MATH

77.0%자체 보고

AA 평가 지수

Math Index

69.7

Intelligence Index

9.0

Mmlu Pro

0.8

Gpqa

0.7

Aime 25

0.7

Livecodebench

0.7

Ifbench

0.3

Scicode

0.3

Tau2

0.2

Lcr

0.2

Terminalbench Hard

0.1

Hle

0.1

LLM Stats 카테고리 점수

Instruction Following

90

Structured Output

90

Code

90

Language

80

Legal

80

Math

80

Reasoning

80

Finance

80

Healthcare

80

Tool Calling

80

General

70

Physics

50

Biology

50

Chemistry

50

가격

입력 가격$1 / 1M 토큰

출력 가격$3 / 1M 토큰

혼합 가격 (3:1)$1.5 / 1M 토큰

속도

토큰/초39.9

첫 토큰 지연0.85s

첫 응답 지연50.94s

공급자 가격 순위

공급자 가격 순위

1개 공급자

공급자입력출력

1Nous Research주요

$1

$3

이 모델의 다양한 API 공급자 간 가격 비교.

외부 링크

Artificial Analysis