Phi-4 Multimodal Instruct
MicrosoftPhiOpen WeightMIT · Commercial OK
説明
Phi-4-multimodal-instruct is a lightweight (5.57B parameters) open multimodal foundation model that leverages research and datasets from Phi-3.5 and 4.0. It processes text, image, and audio inputs to generate text outputs, supporting a 128K token context length. Enhanced via SFT, DPO, and RLHF for instruction following and safety.
リリース日
2025-02-26
パラメータ
5.6B
コンテキスト長
—
モダリティ
image, text
能力レーダー
21
general
13
coding
32
reasoning
19
science推定
0
agents
85
multimodal
専門的な科学ベンチマークが利用できない場合、Scienceは推論プロキシを使用して推定します。
ランキング
| ドメイン | #順位 | スコア | ソース |
|---|---|---|---|
| Code Ranking | 397 | 14.0 | AA |
| General Ranking | 404 | 24.0 | AA |
| Math Reasoning | 228 | 39.0 | AA |
| Multimodal Ranking | 25 | 82.0 | LS |
| Science | 431 | 17.0 | AA |
ベンチマークスコア (LLM Stats)
3d
BLINK
61.3%自己申告
General
MMMU
55.1%自己申告
MMMU-Pro
38.5%自己申告
Image To Text
DocVQA
93.2%自己申告
OCRBench
84.4%自己申告
TextVQA
75.6%自己申告
Math
MathVista
62.4%自己申告
InterGPS
48.6%自己申告
Multimodal
ScienceQA Visual
97.5%自己申告
MMBench
86.7%自己申告
POPE
85.6%自己申告
AI2D
82.3%自己申告
ChartQA
81.4%自己申告
InfoVQA
72.7%自己申告
Video-MME
55.0%自己申告
AA評価指数
Intelligence Index10.0
Math 5000.7
Mmlu Pro0.5
Gpqa0.3
Livecodebench0.1
Scicode0.1
Aime0.1
Hle0.0
LLM Statsカテゴリスコア
Image To Text80
Vision70
Multimodal70
Reasoning70
Spatial Reasoning60
3d60
Healthcare60
Math60
General50
価格設定
入力価格無料
出力価格無料
混合価格(3:1)無料
速度
トークン/秒16.7 tokens/s
初トークン遅延0.50s
初回答遅延0.50s
利用可能なプロバイダー
(LS内部単位)プロバイダーデータがありません