Phi-3 Mini Instruct 3.8B

MicrosoftPhi

Date de sortie

2024-04-23

Paramètres

—

Longueur du contexte

16K

Modalités

text

Radar de capacités

general

coding

reasoning

scienceest.

agents

multimodal

Science utilise un proxy de raisonnement lorsque les benchmarks scientifiques dédiés ne sont pas disponibles.

Classements

Domaine	#Rang	Score	Source
Classement codage	472	5.0	AA
Classement général	483	15.0	AA
Raisonnement mathématique	338	9.0	AA
Raisonnement	27	83.0	LS
Science	466	16.0	AA

Scores de benchmarks (LLM Stats)

Biology

GPQA

56.1%Aut.

Code

HumanEval

82.6%Aut.

Creativity

Arena Hard

75.4%Aut.

Factuality

SimpleQA

3.0%Aut.

Finance

MMLU

84.8%Aut.

MMLU-Pro

70.4%Aut.

General

IFEval

63.0%Aut.

PhiBench

56.2%Aut.

LiveBench

47.6%Aut.

Math

MGSM

80.6%Aut.

MATH

80.4%Aut.

DROP

75.5%Aut.

Reasoning

HumanEval+

82.8%Aut.

Indices d'évaluation AA

Intelligence Index

4.6

Math 500

0.5

Mmlu Pro

0.4

Gpqa

0.3

Math Index

0.3

Ifbench

0.2

Livecodebench

0.1

Scicode

0.1

Hle

0.0

Aime

0.0

Lcr

0.0

Aime 25

0.0

Terminalbench Hard

0.0

Tau2

0.0

Scores par catégorie LLM Stats

Language

Legal

Finance

Healthcare

Code

Creativity

Writing

Math

Reasoning

Instruction Following

Physics

Structured Output

General

Biology

Chemistry

Factuality

Tarification

Prix d'entréeGratuit

Prix de sortieGratuit

Prix mixte (3:1)Gratuit

Vitesse

Tokens/sec0.0

Délai du premier token0.00s

Temps de réponse0.00s

Classement des Prix par Fournisseur

4 fournisseurs

Moins cher: Kilo GatewayPlus cher: Azure

FournisseurEntréeSortie

1Kilo GatewayMoins cher

$0.06

$0.14

2OpenRouter

$0.065

$0.14

3Azure Cognitive Services

$0.13

$0.52

4Azure

$0.13

$0.52

Comparer les prix entre différents fournisseurs API pour ce modèle.

Sources externes

Artificial Analysis