Passer au contenu principal

Phi-3.5-vision-instruct

MicrosoftPhiOpen WeightMIT · Commercial OK

Description

Phi-3.5-vision-instruct is a 4.2B-parameter open multimodal model with up to 128K context tokens. It emphasizes multi-frame image understanding and reasoning, boosting performance on single-image benchmarks while enabling multi-image comparison, summarization, and even video analysis. The model underwent safety post-training for improved instruction-following, alignment, and robust handling of visual and text inputs, and is released under the MIT license.

Date de sortie
2024-08-23
Paramètres
4.2B
Longueur du contexte
Modalités

Radar de capacités

40
general
0
coding
40
reasoning
34
scienceest.
0
agents
70
multimodal

Science utilise un proxy de raisonnement lorsque les benchmarks scientifiques dédiés ne sont pas disponibles.

Classements

Domaine#RangScoreSource
Multimodal Ranking30
80.0
LS

Scores de benchmarks (LLM Stats)

General

MMMU43.0%Aut.

Image To Text

TextVQA72.0%Aut.

Math

ScienceQA91.3%Aut.
MathVista43.9%Aut.
InterGPS36.3%Aut.

Multimodal

POPE86.1%Aut.
MMBench81.9%Aut.
ChartQA81.8%Aut.
AI2D78.1%Aut.

Indices d'évaluation AA

Aucune donnée d'évaluation AA disponible

Scores par catégorie LLM Stats

Vision
70
Image To Text
70
Multimodal
70
Reasoning
70
General
40
Healthcare
40
Math
40

Tarification

Aucune donnée de prix disponible

Vitesse

Aucune donnée de vitesse disponible

Fournisseurs disponibles

(Unités internes LS)

Aucune donnée de fournisseur disponible

Sources externes