Passer au contenu principal

Phi-4 Multimodal Instruct

MicrosoftPhiOpen WeightMIT · Commercial OK

Description

Phi-4-multimodal-instruct is a lightweight (5.57B parameters) open multimodal foundation model that leverages research and datasets from Phi-3.5 and 4.0. It processes text, image, and audio inputs to generate text outputs, supporting a 128K token context length. Enhanced via SFT, DPO, and RLHF for instruction following and safety.

Date de sortie
2025-02-26
Paramètres
5.6B
Longueur du contexte
Modalités
image, text

Radar de capacités

21
general
13
coding
32
reasoning
19
scienceest.
0
agents
85
multimodal

Science utilise un proxy de raisonnement lorsque les benchmarks scientifiques dédiés ne sont pas disponibles.

Classements

Domaine#RangScoreSource
Code Ranking397
14.0
AA
General Ranking404
24.0
AA
Math Reasoning228
39.0
AA
Multimodal Ranking25
82.0
LS
Science431
17.0
AA

Scores de benchmarks (LLM Stats)

3d

BLINK61.3%Aut.

General

MMMU55.1%Aut.
MMMU-Pro38.5%Aut.

Image To Text

DocVQA93.2%Aut.
OCRBench84.4%Aut.
TextVQA75.6%Aut.

Math

MathVista62.4%Aut.
InterGPS48.6%Aut.

Multimodal

ScienceQA Visual97.5%Aut.
MMBench86.7%Aut.
POPE85.6%Aut.
AI2D82.3%Aut.
ChartQA81.4%Aut.
InfoVQA72.7%Aut.
Video-MME55.0%Aut.

Indices d'évaluation AA

Intelligence Index
10.0
Math 500
0.7
Mmlu Pro
0.5
Gpqa
0.3
Livecodebench
0.1
Scicode
0.1
Aime
0.1
Hle
0.0

Scores par catégorie LLM Stats

Image To Text
80
Vision
70
Multimodal
70
Reasoning
70
Spatial Reasoning
60
3d
60
Healthcare
60
Math
60
General
50

Tarification

Prix d'entréeGratuit
Prix de sortieGratuit
Prix mixte (3:1)Gratuit

Vitesse

Tokens/sec16.7 tokens/s
Délai du premier token0.50s
Temps de réponse0.50s

Fournisseurs disponibles

(Unités internes LS)

Aucune donnée de fournisseur disponible

Sources externes