Hermes 4 - Llama-3.1 70B (Reasoning)

Nous ResearchLlama

リリース日

2025-08-27

パラメータ

—

コンテキスト長

131K

モダリティ

text

能力レーダー

general

coding

reasoning

science推定

agents

multimodal

専門的な科学ベンチマークが利用できない場合、Scienceは推論プロキシを使用して推定します。

ベンチマークスコア (LLM Stats)

Biology

GPQA

50.5%自己申告

Code

HumanEval

88.4%自己申告

Finance

MMLU

86.0%自己申告

MMLU-Pro

68.9%自己申告

General

IFEval

92.1%自己申告

MBPP EvalPlus

87.6%自己申告

BFCL v2

77.3%自己申告

Math

MGSM

91.1%自己申告

MATH

77.0%自己申告

AA評価指数

Math Index

68.7

Intelligence Index

10.0

Mmlu Pro

0.8

Gpqa

0.7

Aime 25

0.7

Livecodebench

0.7

Scicode

0.3

Ifbench

0.3

Tau2

0.2

Hle

0.1

Lcr

0.1

Terminalbench Hard

0.0

LLM Statsカテゴリスコア

Instruction Following

Structured Output

Code

Language

Legal

Math

Reasoning

Finance

Healthcare

Tool Calling

General

Physics

Biology

Chemistry

価格設定

入力価格$0.13 / 1Mトークン

出力価格$0.4 / 1Mトークン

混合価格（3:1）$0.198 / 1Mトークン

速度

トークン/秒87.0

初トークン遅延0.66s

初回答遅延23.65s

プロバイダー価格ランキング

2 プロバイダー

最安: Nous Research最高: NanoGPT

プロバイダー入力出力

1Nous Researchプライマリ

$0.13

$0.4

2NanoGPT

$0.25

$1.5

このモデルの異なるAPIプロバイダー間の価格を比較。

外部リンク

Artificial Analysis

ドメイン	#順位	スコア	ソース
コーディングランキング	298	29.0	AA
総合ランキング	315	34.0	AA
数学的推論	121	69.0	AA
科学	212	47.0	AA