Phi-4 Multimodal Instruct

MicrosoftPhi오픈 웨이트MIT · 상업적 사용 가능

설명

Phi-4-multimodal-instruct is a lightweight (5.57B parameters) open multimodal foundation model that leverages research and datasets from Phi-3.5 and 4.0. It processes text, image, and audio inputs to generate text outputs, supporting a 128K token context length. Enhanced via SFT, DPO, and RLHF for instruction following and safety.

출시일

2025-02-26

파라미터

5.6B

컨텍스트 길이

—

모달리티

image, text

능력 레이더

general

coding

reasoning

science추정

agents

multimodal

전용 과학 벤치마크가 없을 때 Science는 추론 프록시를 사용하여 추정합니다.

랭킹

도메인	#순위	점수	소스
코딩 랭킹	416	14.0	AA
종합 랭킹	440	21.0	AA
수학 추론	228	39.0	AA
멀티모달 랭킹	28	82.0	LS
과학	453	17.0	AA

벤치마크 점수 (LLM Stats)

3d

BLINK

61.3%자체 보고

General

MMMU

55.1%자체 보고

MMMU-Pro

38.5%자체 보고

Image To Text

DocVQA

93.2%자체 보고

OCRBench

84.4%자체 보고

TextVQA

75.6%자체 보고

Math

MathVista

62.4%자체 보고

InterGPS

48.6%자체 보고

Multimodal

ScienceQA Visual

97.5%자체 보고

MMBench

86.7%자체 보고

POPE

85.6%자체 보고

AI2D

82.3%자체 보고

ChartQA

81.4%자체 보고

InfoVQA

72.7%자체 보고

Video-MME

55.0%자체 보고

AA 평가 지수

Intelligence Index

4.5

Math 500

0.7

Mmlu Pro

0.5

Gpqa

0.3

Livecodebench

0.1

Scicode

0.1

Aime

0.1

Hle

0.0

LLM Stats 카테고리 점수

Image To Text

Multimodal

Reasoning

Vision

Math

Spatial Reasoning

Healthcare

General

가격

입력 가격무료

출력 가격무료

혼합 가격 (3:1)무료

속도

토큰/초16.0

첫 토큰 지연1.34s

첫 응답 지연1.34s

공급자 가격 순위

4개 공급자

최저가: NanoGPT최고가: evroc

공급자입력출력

1NanoGPT최저가

$0.07

$0.11

2Azure Cognitive Services

$0.08

$0.32

3Azure

$0.08

$0.32

4evroc

$0.24

$0.47

이 모델의 다양한 API 공급자 간 가격 비교.

외부 링크

LLM Stats Artificial Analysis