Phi-4 Multimodal Instruct

MicrosoftPhiОткрытые весаMIT · Коммерческое использование

Описание

Phi-4-multimodal-instruct is a lightweight (5.57B parameters) open multimodal foundation model that leverages research and datasets from Phi-3.5 and 4.0. It processes text, image, and audio inputs to generate text outputs, supporting a 128K token context length. Enhanced via SFT, DPO, and RLHF for instruction following and safety.

Дата выхода

2025-02-26

Параметры

5.6B

Длина контекста

—

Модальности

image, text

Радар способностей

general

coding

reasoning

scienceоцен.

agents

multimodal

Science использует прокси на основе рассуждений, когда специализированные научные бенчмарки недоступны.

Рейтинги

Домен	#Место	Оценка	Источник
Рейтинг кодинга	416	14.0	AA
Общий рейтинг	440	21.0	AA
Математическое мышление	228	39.0	AA
Мультимодальный рейтинг	28	82.0	LS
Наука	453	17.0	AA

Оценки бенчмарков (LLM Stats)

3d

BLINK

61.3%Сам.

General

MMMU

55.1%Сам.

MMMU-Pro

38.5%Сам.

Image To Text

DocVQA

93.2%Сам.

OCRBench

84.4%Сам.

TextVQA

75.6%Сам.

Math

MathVista

62.4%Сам.

InterGPS

48.6%Сам.

Multimodal

ScienceQA Visual

97.5%Сам.

MMBench

86.7%Сам.

POPE

85.6%Сам.

AI2D

82.3%Сам.

ChartQA

81.4%Сам.

InfoVQA

72.7%Сам.

Video-MME

55.0%Сам.

Индексы оценки AA

Intelligence Index

4.5

Math 500

0.7

Mmlu Pro

0.5

Gpqa

0.3

Livecodebench

0.1

Scicode

0.1

Aime

0.1

Hle

0.0

Оценки категорий LLM Stats

Image To Text

Multimodal

Reasoning

Vision

Math

Spatial Reasoning

Healthcare

General

Цены

Цена вводаБесплатно

Цена выводаБесплатно

Смешанная цена (3:1)Бесплатно

Скорость

Токенов/сек16.0

Задержка первого токена1.34s

Время до первого ответа1.34s

Рейтинг цен провайдеров

4 провайдеров

Самый дешевый: NanoGPTСамый дорогой: evroc

ПровайдерВводВывод

1NanoGPTСамый дешевый

$0.07

$0.11

2Azure Cognitive Services

$0.08

$0.32

3Azure

$0.08

$0.32

4evroc

$0.24

$0.47

Сравнение цен разных API-провайдеров для этой модели.

Внешние ссылки

LLM Stats Artificial Analysis