Saltar al contenido principal

Phi-3 Mini Instruct 3.8B

MicrosoftPhi
Fecha de lanzamiento
2024-04-23
Parámetros
Longitud del contexto
16K
Modalidades
text

Radar de capacidades

16
general
11
coding
11
reasoning
18
scienceest.
11
agents
0
multimodal

Science usa un proxy de razonamiento cuando los benchmarks científicos dedicados no están disponibles.

Rankings

Dominio#PosiciónPuntuaciónFuente
Ranking de codificación472
5.0
AA
Ranking general483
15.0
AA
Razonamiento matemático338
9.0
AA
Razonamiento27
83.0
LS
Ciencia466
16.0
AA

Puntuaciones de benchmarks (LLM Stats)

Biology

GPQA56.1%Aut.

Code

HumanEval82.6%Aut.

Creativity

Arena Hard75.4%Aut.

Factuality

SimpleQA3.0%Aut.

Finance

MMLU84.8%Aut.
MMLU-Pro70.4%Aut.

General

IFEval63.0%Aut.
PhiBench56.2%Aut.
LiveBench47.6%Aut.

Math

MGSM80.6%Aut.
MATH80.4%Aut.
DROP75.5%Aut.

Reasoning

HumanEval+82.8%Aut.

Índices de evaluación AA

Intelligence Index
4.6
Math 500
0.5
Mmlu Pro
0.4
Gpqa
0.3
Math Index
0.3
Ifbench
0.2
Livecodebench
0.1
Scicode
0.1
Hle
0.0
Aime
0.0
Lcr
0.0
Aime 25
0.0
Terminalbench Hard
0.0
Tau2
0.0

Puntuaciones por categoría LLM Stats

Language
80
Legal
80
Finance
80
Healthcare
80
Code
80
Creativity
80
Writing
80
Math
70
Reasoning
70
Instruction Following
60
Physics
60
Structured Output
60
General
60
Biology
60
Chemistry
60
Factuality
0

Precios

Precio de entradaGratis
Precio de salidaGratis
Precio mixto (3:1)Gratis

Velocidad

Tokens/seg0.0
Retraso del primer token0.00s
Tiempo hasta la respuesta0.00s

Ranking de Precios por Proveedor

Ranking de Precios por Proveedor

4 proveedores

Más barato: Kilo GatewayMás caro: Azure
ProveedorEntradaSalida
1Kilo GatewayMás barato
$0.06
$0.14
2OpenRouter
$0.065
$0.14
3Azure Cognitive Services
$0.13
$0.52
4Azure
$0.13
$0.52

Comparar precios entre diferentes proveedores de API para este modelo.

Fuentes externas