Phi-3 Mini Instruct 3.8B

MicrosoftPhi

Fecha de lanzamiento

2024-04-23

Parámetros

—

Longitud del contexto

16K

Modalidades

text

Radar de capacidades

general

coding

reasoning

scienceest.

agents

multimodal

Science usa un proxy de razonamiento cuando los benchmarks científicos dedicados no están disponibles.

Rankings

Dominio	#Posición	Puntuación	Fuente
Ranking de codificación	472	5.0	AA
Ranking general	483	15.0	AA
Razonamiento matemático	338	9.0	AA
Razonamiento	27	83.0	LS
Ciencia	466	16.0	AA

Puntuaciones de benchmarks (LLM Stats)

Biology

GPQA

56.1%Aut.

Code

HumanEval

82.6%Aut.

Creativity

Arena Hard

75.4%Aut.

Factuality

SimpleQA

3.0%Aut.

Finance

MMLU

84.8%Aut.

MMLU-Pro

70.4%Aut.

General

IFEval

63.0%Aut.

PhiBench

56.2%Aut.

LiveBench

47.6%Aut.

Math

MGSM

80.6%Aut.

MATH

80.4%Aut.

DROP

75.5%Aut.

Reasoning

HumanEval+

82.8%Aut.

Índices de evaluación AA

Intelligence Index

4.6

Math 500

0.5

Mmlu Pro

0.4

Gpqa

0.3

Math Index

0.3

Ifbench

0.2

Livecodebench

0.1

Scicode

0.1

Hle

0.0

Aime

0.0

Lcr

0.0

Aime 25

0.0

Terminalbench Hard

0.0

Tau2

0.0

Puntuaciones por categoría LLM Stats

Language

Legal

Finance

Healthcare

Code

Creativity

Writing

Math

Reasoning

Instruction Following

Physics

Structured Output

General

Biology

Chemistry

Factuality

Precios

Precio de entradaGratis

Precio de salidaGratis

Precio mixto (3:1)Gratis

Velocidad

Tokens/seg0.0

Retraso del primer token0.00s

Tiempo hasta la respuesta0.00s

Ranking de Precios por Proveedor

4 proveedores

Más barato: Kilo GatewayMás caro: Azure

ProveedorEntradaSalida

1Kilo GatewayMás barato

$0.06

$0.14

2OpenRouter

$0.065

$0.14

3Azure Cognitive Services

$0.13

$0.52

4Azure

$0.13

$0.52

Comparar precios entre diferentes proveedores de API para este modelo.

Fuentes externas

Artificial Analysis