メインコンテンツへスキップ

Hermes 4 - Llama-3.1 405B (Reasoning)

Nous ResearchLlama

リリース日

2025-08-27

パラメータ

—

コンテキスト長

—

モダリティ

—

能力レーダー

31

general

59

coding

70

reasoning

44

science推定

80

agents

0

multimodal

専門的な科学ベンチマークが利用できない場合、Scienceは推論プロキシを使用して推定します。

ランキング

ドメイン	#順位	スコア	ソース
コーディングランキング	243	40.0	AA
総合ランキング	316	34.0	AA
数学的推論	120	70.0	AA
科学	238	45.0	AA

ベンチマークスコア (LLM Stats)

Biology

GPQA

50.5%自己申告

Code

HumanEval

88.4%自己申告

Finance

MMLU

86.0%自己申告

MMLU-Pro

68.9%自己申告

General

IFEval

92.1%自己申告

MBPP EvalPlus

87.6%自己申告

BFCL v2

77.3%自己申告

Math

MGSM

91.1%自己申告

MATH

77.0%自己申告

AA評価指数

Math Index

69.7

Intelligence Index

9.0

Mmlu Pro

0.8

Gpqa

0.7

Aime 25

0.7

Livecodebench

0.7

Ifbench

0.3

Scicode

0.3

Tau2

0.2

Lcr

0.2

Terminalbench Hard

0.1

Hle

0.1

LLM Statsカテゴリスコア

Instruction Following

90

Structured Output

90

Code

90

Language

80

Legal

80

Math

80

Reasoning

80

Finance

80

Healthcare

80

Tool Calling

80

General

70

Physics

50

Biology

50

Chemistry

50

価格設定

入力価格$1 / 1Mトークン

出力価格$3 / 1Mトークン

混合価格（3:1）$1.5 / 1Mトークン

速度

トークン/秒39.9

初トークン遅延0.85s

初回答遅延50.94s

プロバイダー価格ランキング

プロバイダー価格ランキング

1 プロバイダー

プロバイダー入力出力

1Nous Researchプライマリ

$1

$3

このモデルの異なるAPIプロバイダー間の価格を比較。

外部リンク

Artificial Analysis