Phi-4 Multimodal Instruct
MicrosoftPhiOpen WeightMIT · Commercial OK
Описание
Phi-4-multimodal-instruct is a lightweight (5.57B parameters) open multimodal foundation model that leverages research and datasets from Phi-3.5 and 4.0. It processes text, image, and audio inputs to generate text outputs, supporting a 128K token context length. Enhanced via SFT, DPO, and RLHF for instruction following and safety.
Дата выхода
2025-02-26
Параметры
5.6B
Длина контекста
—
Модальности
image, text
Радар способностей
21
general
13
coding
32
reasoning
19
scienceоцен.
0
agents
85
multimodal
Science использует прокси на основе рассуждений, когда специализированные научные бенчмарки недоступны.
Рейтинги
| Домен | #Место | Оценка | Источник |
|---|---|---|---|
| Code Ranking | 397 | 14.0 | AA |
| General Ranking | 404 | 24.0 | AA |
| Math Reasoning | 228 | 39.0 | AA |
| Multimodal Ranking | 25 | 82.0 | LS |
| Science | 431 | 17.0 | AA |
Оценки бенчмарков (LLM Stats)
3d
BLINK
61.3%Сам.
General
MMMU
55.1%Сам.
MMMU-Pro
38.5%Сам.
Image To Text
DocVQA
93.2%Сам.
OCRBench
84.4%Сам.
TextVQA
75.6%Сам.
Math
MathVista
62.4%Сам.
InterGPS
48.6%Сам.
Multimodal
ScienceQA Visual
97.5%Сам.
MMBench
86.7%Сам.
POPE
85.6%Сам.
AI2D
82.3%Сам.
ChartQA
81.4%Сам.
InfoVQA
72.7%Сам.
Video-MME
55.0%Сам.
Индексы оценки AA
Intelligence Index10.0
Math 5000.7
Mmlu Pro0.5
Gpqa0.3
Livecodebench0.1
Scicode0.1
Aime0.1
Hle0.0
Оценки категорий LLM Stats
Image To Text80
Vision70
Multimodal70
Reasoning70
Spatial Reasoning60
3d60
Healthcare60
Math60
General50
Цены
Цена вводаБесплатно
Цена выводаБесплатно
Смешанная цена (3:1)Бесплатно
Скорость
Токенов/сек16.7 tokens/s
Задержка первого токена0.50s
Время до первого ответа0.50s
Доступные провайдеры
(Внутренние единицы LS)Нет данных провайдеров