メインコンテンツへスキップ

Phi-4 Multimodal Instruct

MicrosoftPhiオープンウエイトMIT · 商用利用可

説明

Phi-4-multimodal-instruct is a lightweight (5.57B parameters) open multimodal foundation model that leverages research and datasets from Phi-3.5 and 4.0. It processes text, image, and audio inputs to generate text outputs, supporting a 128K token context length. Enhanced via SFT, DPO, and RLHF for instruction following and safety.

リリース日
2025-02-26
パラメータ
5.6B
コンテキスト長
モダリティ
image, text

能力レーダー

18
general
13
coding
32
reasoning
19
science推定
26
agents
85
multimodal

専門的な科学ベンチマークが利用できない場合、Scienceは推論プロキシを使用して推定します。

ランキング

ドメイン#順位スコアソース
コーディングランキング416
14.0
AA
総合ランキング440
21.0
AA
数学的推論228
39.0
AA
マルチモーダルランキング28
82.0
LS
科学453
17.0
AA

ベンチマークスコア (LLM Stats)

3d

BLINK61.3%自己申告

General

MMMU55.1%自己申告
MMMU-Pro38.5%自己申告

Image To Text

DocVQA93.2%自己申告
OCRBench84.4%自己申告
TextVQA75.6%自己申告

Math

MathVista62.4%自己申告
InterGPS48.6%自己申告

Multimodal

ScienceQA Visual97.5%自己申告
MMBench86.7%自己申告
POPE85.6%自己申告
AI2D82.3%自己申告
ChartQA81.4%自己申告
InfoVQA72.7%自己申告
Video-MME55.0%自己申告

AA評価指数

Intelligence Index
4.5
Math 500
0.7
Mmlu Pro
0.5
Gpqa
0.3
Livecodebench
0.1
Scicode
0.1
Aime
0.1
Hle
0.0

LLM Statsカテゴリスコア

Image To Text
80
Multimodal
70
Reasoning
70
Vision
70
Math
60
Spatial Reasoning
60
Healthcare
60
3d
60
General
50

価格設定

入力価格無料
出力価格無料
混合価格(3:1)無料

速度

トークン/秒16.0
初トークン遅延1.34s
初回答遅延1.34s

プロバイダー価格ランキング

プロバイダー価格ランキング

4 プロバイダー

最安: NanoGPT最高: evroc
プロバイダー入力出力
1NanoGPT最安
$0.07
$0.11
2Azure Cognitive Services
$0.08
$0.32
3Azure
$0.08
$0.32
4evroc
$0.24
$0.47

このモデルの異なるAPIプロバイダー間の価格を比較。

外部リンク