メインコンテンツへスキップ

Phi-3.5-vision-instruct

MicrosoftPhiOpen WeightMIT · Commercial OK

説明

Phi-3.5-vision-instruct is a 4.2B-parameter open multimodal model with up to 128K context tokens. It emphasizes multi-frame image understanding and reasoning, boosting performance on single-image benchmarks while enabling multi-image comparison, summarization, and even video analysis. The model underwent safety post-training for improved instruction-following, alignment, and robust handling of visual and text inputs, and is released under the MIT license.

リリース日
2024-08-23
パラメータ
4.2B
コンテキスト長
モダリティ

能力レーダー

40
general
0
coding
40
reasoning
34
science推定
0
agents
70
multimodal

専門的な科学ベンチマークが利用できない場合、Scienceは推論プロキシを使用して推定します。

ランキング

ドメイン#順位スコアソース
Multimodal Ranking30
80.0
LS

ベンチマークスコア (LLM Stats)

General

MMMU43.0%自己申告

Image To Text

TextVQA72.0%自己申告

Math

ScienceQA91.3%自己申告
MathVista43.9%自己申告
InterGPS36.3%自己申告

Multimodal

POPE86.1%自己申告
MMBench81.9%自己申告
ChartQA81.8%自己申告
AI2D78.1%自己申告

AA評価指数

AA評価データがありません

LLM Statsカテゴリスコア

Vision
70
Image To Text
70
Multimodal
70
Reasoning
70
General
40
Healthcare
40
Math
40

価格設定

価格データがありません

速度

速度データがありません

利用可能なプロバイダー

(LS内部単位)

プロバイダーデータがありません

外部リンク