Hermes 4 - Llama-3.1 405B (Non-reasoning)

Nous ResearchLlama

Date de sortie

2025-08-27

Paramètres

—

Longueur du contexte

—

Modalités

—

Radar de capacités

general

coding

reasoning

scienceest.

agents

multimodal

Science utilise un proxy de raisonnement lorsque les benchmarks scientifiques dédiés ne sont pas disponibles.

Classements

Domaine	#Rang	Score	Source
Classement codage	269	34.0	AA
Classement général	330	33.0	AA
Raisonnement mathématique	320	15.0	AA
Science	303	38.0	AA

Scores de benchmarks (LLM Stats)

Biology

GPQA

50.5%Aut.

Code

HumanEval

88.4%Aut.

Finance

MMLU

86.0%Aut.

MMLU-Pro

68.9%Aut.

General

IFEval

92.1%Aut.

MBPP EvalPlus

87.6%Aut.

BFCL v2

77.3%Aut.

Math

MGSM

91.1%Aut.

MATH

77.0%Aut.

Indices d'évaluation AA

Math Index

15.3

Intelligence Index

8.8

Mmlu Pro

0.7

Livecodebench

0.5

Gpqa

0.5

Ifbench

0.3

Scicode

0.3

Tau2

0.3

Lcr

0.2

Aime 25

0.2

Terminalbench Hard

0.1

Hle

0.0

Scores par catégorie LLM Stats

Instruction Following

Structured Output

Code

Language

Legal

Math

Reasoning

Finance

Healthcare

Tool Calling

General

Physics

Biology

Chemistry

Tarification

Prix d'entrée$1 / 1M tokens

Prix de sortie$3 / 1M tokens

Prix mixte (3:1)$1.5 / 1M tokens

Vitesse

Tokens/sec42.2

Délai du premier token0.78s

Temps de réponse0.78s

Classement des Prix par Fournisseur

1 fournisseurs

FournisseurEntréeSortie

1Nous ResearchPRINCIPAL

Comparer les prix entre différents fournisseurs API pour ce modèle.

Sources externes

Artificial Analysis