Phi-4 Multimodal Instruct

MicrosoftPhiओपन वेटMIT · व्यावसायिक उपयोग

विवरण

Phi-4-multimodal-instruct is a lightweight (5.57B parameters) open multimodal foundation model that leverages research and datasets from Phi-3.5 and 4.0. It processes text, image, and audio inputs to generate text outputs, supporting a 128K token context length. Enhanced via SFT, DPO, and RLHF for instruction following and safety.

रिलीज़ तिथि

2025-02-26

पैरामीटर

5.6B

संदर्भ लंबाई

—

मोडैलिटीज़

image, text

क्षमता रडार

general

coding

reasoning

scienceअनुमानित

agents

multimodal

समर्पित विज्ञान बेंचमार्क उपलब्ध न होने पर Science तर्क प्रॉक्सी का उपयोग करके अनुमान लगाता है।

रैंकिंग

डोमेन	#रैंक	स्कोर	स्रोत
कोडिंग रैंकिंग	416	14.0	AA
सामान्य रैंकिंग	440	21.0	AA
गणितीय तर्क	228	39.0	AA
मल्टीमॉडल रैंकिंग	28	82.0	LS
विज्ञान	453	17.0	AA

बेंचमार्क स्कोर (LLM Stats)

3d

BLINK

61.3%स्वयं

General

MMMU

55.1%स्वयं

MMMU-Pro

38.5%स्वयं

Image To Text

DocVQA

93.2%स्वयं

OCRBench

84.4%स्वयं

TextVQA

75.6%स्वयं

Math

MathVista

62.4%स्वयं

InterGPS

48.6%स्वयं

Multimodal

ScienceQA Visual

97.5%स्वयं

MMBench

86.7%स्वयं

POPE

85.6%स्वयं

AI2D

82.3%स्वयं

ChartQA

81.4%स्वयं

InfoVQA

72.7%स्वयं

Video-MME

55.0%स्वयं

AA मूल्यांकन सूचकांक

Intelligence Index

4.5

Math 500

0.7

Mmlu Pro

0.5

Gpqa

0.3

Livecodebench

0.1

Scicode

0.1

Aime

0.1

Hle

0.0

LLM Stats श्रेणी स्कोर

Image To Text

Multimodal

Reasoning

Vision

Spatial Reasoning

Math

Healthcare

General

मूल्य निर्धारण

इनपुट मूल्यमुफ्त

आउटपुट मूल्यमुफ्त

मिश्रित मूल्य (3:1)मुफ्त

गति

टोकन/सेकंड15.9

पहले टोकन में देरी1.33s

पहले उत्तर में देरी1.33s

प्रदाता मूल्य रैंकिंग

4 प्रदाता

सबसे सस्ता: NanoGPTसबसे महंगा: evroc

प्रदाताइनपुटआउटपुट

1NanoGPTसबसे सस्ता

$0.07

$0.11

2Azure Cognitive Services

$0.08

$0.32

3Azure

$0.08

$0.32

4evroc

$0.24

$0.47

इस मॉडल के लिए विभिन्न API प्रदाताओं के मूल्य निर्धारण की तुलना करें।

बाहरी लिंक

LLM Stats Artificial Analysis