Перейти к основному содержанию

Phi-4 Multimodal Instruct

MicrosoftPhiOpen WeightMIT · Commercial OK

Описание

Phi-4-multimodal-instruct is a lightweight (5.57B parameters) open multimodal foundation model that leverages research and datasets from Phi-3.5 and 4.0. It processes text, image, and audio inputs to generate text outputs, supporting a 128K token context length. Enhanced via SFT, DPO, and RLHF for instruction following and safety.

Дата выхода
2025-02-26
Параметры
5.6B
Длина контекста
Модальности
image, text

Радар способностей

21
general
13
coding
32
reasoning
19
scienceоцен.
0
agents
85
multimodal

Science использует прокси на основе рассуждений, когда специализированные научные бенчмарки недоступны.

Рейтинги

Домен#МестоОценкаИсточник
Code Ranking397
14.0
AA
General Ranking404
24.0
AA
Math Reasoning228
39.0
AA
Multimodal Ranking25
82.0
LS
Science431
17.0
AA

Оценки бенчмарков (LLM Stats)

3d

BLINK61.3%Сам.

General

MMMU55.1%Сам.
MMMU-Pro38.5%Сам.

Image To Text

DocVQA93.2%Сам.
OCRBench84.4%Сам.
TextVQA75.6%Сам.

Math

MathVista62.4%Сам.
InterGPS48.6%Сам.

Multimodal

ScienceQA Visual97.5%Сам.
MMBench86.7%Сам.
POPE85.6%Сам.
AI2D82.3%Сам.
ChartQA81.4%Сам.
InfoVQA72.7%Сам.
Video-MME55.0%Сам.

Индексы оценки AA

Intelligence Index
10.0
Math 500
0.7
Mmlu Pro
0.5
Gpqa
0.3
Livecodebench
0.1
Scicode
0.1
Aime
0.1
Hle
0.0

Оценки категорий LLM Stats

Image To Text
80
Vision
70
Multimodal
70
Reasoning
70
Spatial Reasoning
60
3d
60
Healthcare
60
Math
60
General
50

Цены

Цена вводаБесплатно
Цена выводаБесплатно
Смешанная цена (3:1)Бесплатно

Скорость

Токенов/сек16.7 tokens/s
Задержка первого токена0.50s
Время до первого ответа0.50s

Доступные провайдеры

(Внутренние единицы LS)

Нет данных провайдеров

Внешние ссылки