मुख्य सामग्री पर जाएं

Phi-4 Multimodal Instruct

MicrosoftPhiOpen WeightMIT · Commercial OK

विवरण

Phi-4-multimodal-instruct is a lightweight (5.57B parameters) open multimodal foundation model that leverages research and datasets from Phi-3.5 and 4.0. It processes text, image, and audio inputs to generate text outputs, supporting a 128K token context length. Enhanced via SFT, DPO, and RLHF for instruction following and safety.

रिलीज़ तिथि
2025-02-26
पैरामीटर
5.6B
संदर्भ लंबाई
मोडैलिटीज़
image, text

क्षमता रडार

21
general
13
coding
32
reasoning
19
scienceअनुमानित
0
agents
85
multimodal

समर्पित विज्ञान बेंचमार्क उपलब्ध न होने पर Science तर्क प्रॉक्सी का उपयोग करके अनुमान लगाता है।

रैंकिंग

डोमेन#रैंकस्कोरस्रोत
Code Ranking397
14.0
AA
General Ranking404
24.0
AA
Math Reasoning228
39.0
AA
Multimodal Ranking25
82.0
LS
Science431
17.0
AA

बेंचमार्क स्कोर (LLM Stats)

3d

BLINK61.3%स्वयं

General

MMMU55.1%स्वयं
MMMU-Pro38.5%स्वयं

Image To Text

DocVQA93.2%स्वयं
OCRBench84.4%स्वयं
TextVQA75.6%स्वयं

Math

MathVista62.4%स्वयं
InterGPS48.6%स्वयं

Multimodal

ScienceQA Visual97.5%स्वयं
MMBench86.7%स्वयं
POPE85.6%स्वयं
AI2D82.3%स्वयं
ChartQA81.4%स्वयं
InfoVQA72.7%स्वयं
Video-MME55.0%स्वयं

AA मूल्यांकन सूचकांक

Intelligence Index
10.0
Math 500
0.7
Mmlu Pro
0.5
Gpqa
0.3
Livecodebench
0.1
Scicode
0.1
Aime
0.1
Hle
0.0

LLM Stats श्रेणी स्कोर

Image To Text
80
Vision
70
Multimodal
70
Reasoning
70
Spatial Reasoning
60
3d
60
Healthcare
60
Math
60
General
50

मूल्य निर्धारण

इनपुट मूल्यमुफ्त
आउटपुट मूल्यमुफ्त
मिश्रित मूल्य (3:1)मुफ्त

गति

टोकन/सेकंड16.7 tokens/s
पहले टोकन में देरी0.50s
पहले उत्तर में देरी0.50s

उपलब्ध प्रदाता

(LS आंतरिक इकाइयाँ)

कोई प्रदाता डेटा उपलब्ध नहीं

बाहरी लिंक