Saltar al contenido principal

Phi-4 Multimodal Instruct

MicrosoftPhiOpen WeightMIT · Commercial OK

Descripción

Phi-4-multimodal-instruct is a lightweight (5.57B parameters) open multimodal foundation model that leverages research and datasets from Phi-3.5 and 4.0. It processes text, image, and audio inputs to generate text outputs, supporting a 128K token context length. Enhanced via SFT, DPO, and RLHF for instruction following and safety.

Fecha de lanzamiento
2025-02-26
Parámetros
5.6B
Longitud del contexto
Modalidades
image, text

Radar de capacidades

21
general
13
coding
32
reasoning
19
scienceest.
0
agents
85
multimodal

Science usa un proxy de razonamiento cuando los benchmarks científicos dedicados no están disponibles.

Rankings

Dominio#PosiciónPuntuaciónFuente
Code Ranking397
14.0
AA
General Ranking404
24.0
AA
Math Reasoning228
39.0
AA
Multimodal Ranking25
82.0
LS
Science431
17.0
AA

Puntuaciones de benchmarks (LLM Stats)

3d

BLINK61.3%Aut.

General

MMMU55.1%Aut.
MMMU-Pro38.5%Aut.

Image To Text

DocVQA93.2%Aut.
OCRBench84.4%Aut.
TextVQA75.6%Aut.

Math

MathVista62.4%Aut.
InterGPS48.6%Aut.

Multimodal

ScienceQA Visual97.5%Aut.
MMBench86.7%Aut.
POPE85.6%Aut.
AI2D82.3%Aut.
ChartQA81.4%Aut.
InfoVQA72.7%Aut.
Video-MME55.0%Aut.

Índices de evaluación AA

Intelligence Index
10.0
Math 500
0.7
Mmlu Pro
0.5
Gpqa
0.3
Livecodebench
0.1
Scicode
0.1
Aime
0.1
Hle
0.0

Puntuaciones por categoría LLM Stats

Image To Text
80
Vision
70
Multimodal
70
Reasoning
70
Spatial Reasoning
60
3d
60
Healthcare
60
Math
60
General
50

Precios

Precio de entradaGratis
Precio de salidaGratis
Precio mixto (3:1)Gratis

Velocidad

Tokens/seg16.7 tokens/s
Retraso del primer token0.50s
Tiempo hasta la respuesta0.50s

Proveedores disponibles

(Unidades internas LS)

No hay datos de proveedores disponibles

Fuentes externas