Перейти к основному содержанию

Phi-3.5-vision-instruct

MicrosoftPhiOpen WeightMIT · Commercial OK

Описание

Phi-3.5-vision-instruct is a 4.2B-parameter open multimodal model with up to 128K context tokens. It emphasizes multi-frame image understanding and reasoning, boosting performance on single-image benchmarks while enabling multi-image comparison, summarization, and even video analysis. The model underwent safety post-training for improved instruction-following, alignment, and robust handling of visual and text inputs, and is released under the MIT license.

Дата выхода
2024-08-23
Параметры
4.2B
Длина контекста
Модальности

Радар способностей

40
general
0
coding
40
reasoning
34
scienceоцен.
0
agents
70
multimodal

Science использует прокси на основе рассуждений, когда специализированные научные бенчмарки недоступны.

Рейтинги

Домен#МестоОценкаИсточник
Multimodal Ranking30
80.0
LS

Оценки бенчмарков (LLM Stats)

General

MMMU43.0%Сам.

Image To Text

TextVQA72.0%Сам.

Math

ScienceQA91.3%Сам.
MathVista43.9%Сам.
InterGPS36.3%Сам.

Multimodal

POPE86.1%Сам.
MMBench81.9%Сам.
ChartQA81.8%Сам.
AI2D78.1%Сам.

Индексы оценки AA

Нет данных AA оценки

Оценки категорий LLM Stats

Vision
70
Image To Text
70
Multimodal
70
Reasoning
70
General
40
Healthcare
40
Math
40

Цены

Нет данных о ценах

Скорость

Нет данных о скорости

Доступные провайдеры

(Внутренние единицы LS)

Нет данных провайдеров

Внешние ссылки