Phi-3.5-vision-instruct
MicrosoftPhi오픈 웨이트MIT · 상업적 사용 가능
설명
Phi-3.5-vision-instruct is a 4.2B-parameter open multimodal model with up to 128K context tokens. It emphasizes multi-frame image understanding and reasoning, boosting performance on single-image benchmarks while enabling multi-image comparison, summarization, and even video analysis. The model underwent safety post-training for improved instruction-following, alignment, and robust handling of visual and text inputs, and is released under the MIT license.
출시일
2024-08-23
파라미터
4.2B
컨텍스트 길이
—
모달리티
—
능력 레이더
40
general
0
coding
40
reasoning
34
science추정
28
agents
70
multimodal
전용 과학 벤치마크가 없을 때 Science는 추론 프록시를 사용하여 추정합니다.
랭킹
| 도메인 | #순위 | 점수 | 소스 |
|---|---|---|---|
| 멀티모달 랭킹 | 34 | 80.0 | LS |
벤치마크 점수 (LLM Stats)
General
MMMU
43.0%자체 보고
Image To Text
TextVQA
72.0%자체 보고
Math
ScienceQA
91.3%자체 보고
MathVista
43.9%자체 보고
InterGPS
36.3%자체 보고
Multimodal
POPE
86.1%자체 보고
MMBench
81.9%자체 보고
ChartQA
81.8%자체 보고
AI2D
78.1%자체 보고
AA 평가 지수
AA 평가 데이터가 없습니다
LLM Stats 카테고리 점수
Image To Text70
Multimodal70
Reasoning70
Vision70
Math40
General40
Healthcare40
가격
가격 데이터가 없습니다
속도
속도 데이터가 없습니다
공급자 가격 순위
프로바이더 데이터가 없습니다