मुख्य सामग्री पर जाएं

Phi-4 Multimodal Instruct

MicrosoftPhiओपन वेटMIT · व्यावसायिक उपयोग

विवरण

Phi-4-multimodal-instruct is a lightweight (5.57B parameters) open multimodal foundation model that leverages research and datasets from Phi-3.5 and 4.0. It processes text, image, and audio inputs to generate text outputs, supporting a 128K token context length. Enhanced via SFT, DPO, and RLHF for instruction following and safety.

रिलीज़ तिथि
2025-02-26
पैरामीटर
5.6B
संदर्भ लंबाई
मोडैलिटीज़
image, text

क्षमता रडार

18
general
13
coding
32
reasoning
19
scienceअनुमानित
26
agents
85
multimodal

समर्पित विज्ञान बेंचमार्क उपलब्ध न होने पर Science तर्क प्रॉक्सी का उपयोग करके अनुमान लगाता है।

रैंकिंग

बेंचमार्क स्कोर (LLM Stats)

3d

BLINK61.3%स्वयं

General

MMMU55.1%स्वयं
MMMU-Pro38.5%स्वयं

Image To Text

DocVQA93.2%स्वयं
OCRBench84.4%स्वयं
TextVQA75.6%स्वयं

Math

MathVista62.4%स्वयं
InterGPS48.6%स्वयं

Multimodal

ScienceQA Visual97.5%स्वयं
MMBench86.7%स्वयं
POPE85.6%स्वयं
AI2D82.3%स्वयं
ChartQA81.4%स्वयं
InfoVQA72.7%स्वयं
Video-MME55.0%स्वयं

AA मूल्यांकन सूचकांक

Intelligence Index
4.5
Math 500
0.7
Mmlu Pro
0.5
Gpqa
0.3
Livecodebench
0.1
Scicode
0.1
Aime
0.1
Hle
0.0

LLM Stats श्रेणी स्कोर

Image To Text
80
Multimodal
70
Reasoning
70
Vision
70
Spatial Reasoning
60
Math
60
Healthcare
60
3d
60
General
50

मूल्य निर्धारण

इनपुट मूल्यमुफ्त
आउटपुट मूल्यमुफ्त
मिश्रित मूल्य (3:1)मुफ्त

गति

टोकन/सेकंड15.9
पहले टोकन में देरी1.33s
पहले उत्तर में देरी1.33s

प्रदाता मूल्य रैंकिंग

प्रदाता मूल्य रैंकिंग

4 प्रदाता

सबसे सस्ता: NanoGPTसबसे महंगा: evroc
प्रदाताइनपुटआउटपुट
1NanoGPTसबसे सस्ता
$0.07
$0.11
2Azure Cognitive Services
$0.08
$0.32
3Azure
$0.08
$0.32
4evroc
$0.24
$0.47

इस मॉडल के लिए विभिन्न API प्रदाताओं के मूल्य निर्धारण की तुलना करें।

बाहरी लिंक