Phi-4 Multimodal Instruct
MicrosoftPhiОткрытые весаMIT · Коммерческое использование
Описание
Phi-4-multimodal-instruct is a lightweight (5.57B parameters) open multimodal foundation model that leverages research and datasets from Phi-3.5 and 4.0. It processes text, image, and audio inputs to generate text outputs, supporting a 128K token context length. Enhanced via SFT, DPO, and RLHF for instruction following and safety.
Дата выхода
2025-02-26
Параметры
5.6B
Длина контекста
—
Модальности
image, text
Радар способностей
18
general
13
coding
32
reasoning
19
scienceоцен.
26
agents
85
multimodal
Science использует прокси на основе рассуждений, когда специализированные научные бенчмарки недоступны.
Рейтинги
| Домен | #Место | Оценка | Источник |
|---|---|---|---|
| Рейтинг кодинга | 416 | 14.0 | AA |
| Общий рейтинг | 440 | 21.0 | AA |
| Математическое мышление | 228 | 39.0 | AA |
| Мультимодальный рейтинг | 28 | 82.0 | LS |
| Наука | 453 | 17.0 | AA |
Оценки бенчмарков (LLM Stats)
3d
BLINK
61.3%Сам.
General
MMMU
55.1%Сам.
MMMU-Pro
38.5%Сам.
Image To Text
DocVQA
93.2%Сам.
OCRBench
84.4%Сам.
TextVQA
75.6%Сам.
Math
MathVista
62.4%Сам.
InterGPS
48.6%Сам.
Multimodal
ScienceQA Visual
97.5%Сам.
MMBench
86.7%Сам.
POPE
85.6%Сам.
AI2D
82.3%Сам.
ChartQA
81.4%Сам.
InfoVQA
72.7%Сам.
Video-MME
55.0%Сам.
Индексы оценки AA
Intelligence Index4.5
Math 5000.7
Mmlu Pro0.5
Gpqa0.3
Livecodebench0.1
Scicode0.1
Aime0.1
Hle0.0
Оценки категорий LLM Stats
Image To Text80
Multimodal70
Reasoning70
Vision70
Math60
Spatial Reasoning60
Healthcare60
3d60
General50
Цены
Цена вводаБесплатно
Цена выводаБесплатно
Смешанная цена (3:1)Бесплатно
Скорость
Токенов/сек16.0
Задержка первого токена1.34s
Время до первого ответа1.34s
Рейтинг цен провайдеров
Рейтинг цен провайдеров
4 провайдеров
Самый дешевый: NanoGPTСамый дорогой: evroc
ПровайдерВводВывод
1NanoGPTСамый дешевый
$0.07
$0.11
2Azure Cognitive Services
$0.08
$0.32
3Azure
$0.08
$0.32
4evroc
$0.24
$0.47
Сравнение цен разных API-провайдеров для этой модели.