メインコンテンツへスキップ

Phi-4 Multimodal Instruct

MicrosoftPhiOpen WeightMIT · Commercial OK

説明

Phi-4-multimodal-instruct is a lightweight (5.57B parameters) open multimodal foundation model that leverages research and datasets from Phi-3.5 and 4.0. It processes text, image, and audio inputs to generate text outputs, supporting a 128K token context length. Enhanced via SFT, DPO, and RLHF for instruction following and safety.

リリース日
2025-02-26
パラメータ
5.6B
コンテキスト長
モダリティ
image, text

能力レーダー

21
general
13
coding
32
reasoning
19
science推定
0
agents
85
multimodal

専門的な科学ベンチマークが利用できない場合、Scienceは推論プロキシを使用して推定します。

ランキング

ドメイン#順位スコアソース
Code Ranking397
14.0
AA
General Ranking404
24.0
AA
Math Reasoning228
39.0
AA
Multimodal Ranking25
82.0
LS
Science431
17.0
AA

ベンチマークスコア (LLM Stats)

3d

BLINK61.3%自己申告

General

MMMU55.1%自己申告
MMMU-Pro38.5%自己申告

Image To Text

DocVQA93.2%自己申告
OCRBench84.4%自己申告
TextVQA75.6%自己申告

Math

MathVista62.4%自己申告
InterGPS48.6%自己申告

Multimodal

ScienceQA Visual97.5%自己申告
MMBench86.7%自己申告
POPE85.6%自己申告
AI2D82.3%自己申告
ChartQA81.4%自己申告
InfoVQA72.7%自己申告
Video-MME55.0%自己申告

AA評価指数

Intelligence Index
10.0
Math 500
0.7
Mmlu Pro
0.5
Gpqa
0.3
Livecodebench
0.1
Scicode
0.1
Aime
0.1
Hle
0.0

LLM Statsカテゴリスコア

Image To Text
80
Vision
70
Multimodal
70
Reasoning
70
Spatial Reasoning
60
3d
60
Healthcare
60
Math
60
General
50

価格設定

入力価格無料
出力価格無料
混合価格(3:1)無料

速度

トークン/秒16.7 tokens/s
初トークン遅延0.50s
初回答遅延0.50s

利用可能なプロバイダー

(LS内部単位)

プロバイダーデータがありません

外部リンク