DeepHermes 3 - Llama-3.1 8B Preview (Non-reasoning)

Nous ResearchLlama

Date de sortie

2025-02-13

Paramètres

—

Longueur du contexte

—

Modalités

—

Radar de capacités

general

coding

reasoning

scienceest.

agents

multimodal

Science utilise un proxy de raisonnement lorsque les benchmarks scientifiques dédiés ne sont pas disponibles.

Classements

Domaine	#Rang	Score	Source
Classement codage	455	9.0	AA
Classement général	488	14.0	AA
Raisonnement mathématique	339	9.0	AA
Science	478	14.0	AA

Scores de benchmarks (LLM Stats)

Biology

GPQA

50.5%Aut.

Code

HumanEval

88.4%Aut.

Finance

MMLU

86.0%Aut.

MMLU-Pro

68.9%Aut.

General

IFEval

92.1%Aut.

MBPP EvalPlus

87.6%Aut.

BFCL v2

77.3%Aut.

Math

MGSM

91.1%Aut.

MATH

77.0%Aut.

Indices d'évaluation AA

Intelligence Index

2.3

Mmlu Pro

0.4

Gpqa

0.3

Math 500

0.2

Scicode

0.1

Livecodebench

0.1

Hle

0.0

Aime

0.0

Scores par catégorie LLM Stats

Instruction Following

Structured Output

Code

Language

Legal

Math

Reasoning

Finance

Healthcare

Tool Calling

General

Physics

Biology

Chemistry

Tarification

Prix d'entréeGratuit

Prix de sortieGratuit

Prix mixte (3:1)Gratuit

Vitesse

Tokens/sec0.0

Délai du premier token0.00s

Temps de réponse0.00s

Classement des Prix par Fournisseur

Aucune donnée de fournisseur disponible

Sources externes

Artificial Analysis