Перейти к основному содержанию

Phi-4 Multimodal Instruct

MicrosoftPhiОткрытые весаMIT · Коммерческое использование

Описание

Phi-4-multimodal-instruct is a lightweight (5.57B parameters) open multimodal foundation model that leverages research and datasets from Phi-3.5 and 4.0. It processes text, image, and audio inputs to generate text outputs, supporting a 128K token context length. Enhanced via SFT, DPO, and RLHF for instruction following and safety.

Дата выхода
2025-02-26
Параметры
5.6B
Длина контекста
Модальности
image, text

Радар способностей

18
general
13
coding
32
reasoning
19
scienceоцен.
26
agents
85
multimodal

Science использует прокси на основе рассуждений, когда специализированные научные бенчмарки недоступны.

Рейтинги

Оценки бенчмарков (LLM Stats)

3d

BLINK61.3%Сам.

General

MMMU55.1%Сам.
MMMU-Pro38.5%Сам.

Image To Text

DocVQA93.2%Сам.
OCRBench84.4%Сам.
TextVQA75.6%Сам.

Math

MathVista62.4%Сам.
InterGPS48.6%Сам.

Multimodal

ScienceQA Visual97.5%Сам.
MMBench86.7%Сам.
POPE85.6%Сам.
AI2D82.3%Сам.
ChartQA81.4%Сам.
InfoVQA72.7%Сам.
Video-MME55.0%Сам.

Индексы оценки AA

Intelligence Index
4.5
Math 500
0.7
Mmlu Pro
0.5
Gpqa
0.3
Livecodebench
0.1
Scicode
0.1
Aime
0.1
Hle
0.0

Оценки категорий LLM Stats

Image To Text
80
Multimodal
70
Reasoning
70
Vision
70
Math
60
Spatial Reasoning
60
Healthcare
60
3d
60
General
50

Цены

Цена вводаБесплатно
Цена выводаБесплатно
Смешанная цена (3:1)Бесплатно

Скорость

Токенов/сек16.0
Задержка первого токена1.34s
Время до первого ответа1.34s

Рейтинг цен провайдеров

Рейтинг цен провайдеров

4 провайдеров

Самый дешевый: NanoGPTСамый дорогой: evroc
ПровайдерВводВывод
1NanoGPTСамый дешевый
$0.07
$0.11
2Azure Cognitive Services
$0.08
$0.32
3Azure
$0.08
$0.32
4evroc
$0.24
$0.47

Сравнение цен разных API-провайдеров для этой модели.

Внешние ссылки