Phi-4 Multimodal Instruct

MicrosoftPhiOpen WeightMIT · Usage Commercial

Description

Phi-4-multimodal-instruct is a lightweight (5.57B parameters) open multimodal foundation model that leverages research and datasets from Phi-3.5 and 4.0. It processes text, image, and audio inputs to generate text outputs, supporting a 128K token context length. Enhanced via SFT, DPO, and RLHF for instruction following and safety.

Date de sortie

2025-02-26

Paramètres

5.6B

Longueur du contexte

—

Modalités

image, text

Radar de capacités

general

coding

reasoning

scienceest.

agents

multimodal

Science utilise un proxy de raisonnement lorsque les benchmarks scientifiques dédiés ne sont pas disponibles.

Classements

Domaine	#Rang	Score	Source
Classement codage	416	14.0	AA
Classement général	440	21.0	AA
Raisonnement mathématique	228	39.0	AA
Classement multimodal	28	82.0	LS
Science	453	17.0	AA

Scores de benchmarks (LLM Stats)

3d

BLINK

61.3%Aut.

General

MMMU

55.1%Aut.

MMMU-Pro

38.5%Aut.

Image To Text

DocVQA

93.2%Aut.

OCRBench

84.4%Aut.

TextVQA

75.6%Aut.

Math

MathVista

62.4%Aut.

InterGPS

48.6%Aut.

Multimodal

ScienceQA Visual

97.5%Aut.

MMBench

86.7%Aut.

POPE

85.6%Aut.

AI2D

82.3%Aut.

ChartQA

81.4%Aut.

InfoVQA

72.7%Aut.

Video-MME

55.0%Aut.

Indices d'évaluation AA

Intelligence Index

4.5

Math 500

0.7

Mmlu Pro

0.5

Gpqa

0.3

Livecodebench

0.1

Scicode

0.1

Aime

0.1

Hle

0.0

Scores par catégorie LLM Stats

Image To Text

Multimodal

Reasoning

Vision

Math

Spatial Reasoning

Healthcare

General

Tarification

Prix d'entréeGratuit

Prix de sortieGratuit

Prix mixte (3:1)Gratuit

Vitesse

Tokens/sec16.0

Délai du premier token1.34s

Temps de réponse1.34s

Classement des Prix par Fournisseur

4 fournisseurs

Moins cher: NanoGPTPlus cher: evroc

FournisseurEntréeSortie

1NanoGPTMoins cher

$0.07

$0.11

2Azure Cognitive Services

$0.08

$0.32

3Azure

$0.08

$0.32

4evroc

$0.24

$0.47

Comparer les prix entre différents fournisseurs API pour ce modèle.

Sources externes

LLM Stats Artificial Analysis