Перейти к основному содержанию

Qwen2-VL-72B-Instruct

Alibaba Cloud / Qwen TeamQwenOpen Weighttongyi-qianwen

Описание

An instruction-tuned, large multimodal model that excels at visual understanding and step-by-step reasoning. It supports image and video input, with dynamic resolution handling and improved positional embeddings (M-ROPE), enabling advanced capabilities such as complex problem solving, multilingual text recognition in images, and agent-like interactions in video contexts.

Дата выхода
2024-08-29
Параметры
73.4B
Длина контекста
Модальности

Радар способностей

60
general
0
coding
70
reasoning
51
scienceоцен.
0
agents
90
multimodal

Science использует прокси на основе рассуждений, когда специализированные научные бенчмарки недоступны.

Рейтинги

Домен#МестоОценкаИсточник
Multimodal Ranking36
78.0
LS
Reasoning6
92.0
LS

Оценки бенчмарков (LLM Stats)

General

MMVetGPT4Turbo74.0%Сам.
MMMUval64.5%Сам.
MMMU-Pro46.2%Сам.

Image To Text

OCRBench87.7%Сам.
TextVQA85.5%Сам.

Long Context

EgoSchema77.9%Сам.

Math

MathVista-Mini70.5%Сам.

Multimodal

DocVQAtest96.5%Сам.
ChartQA88.3%Сам.
MMBench86.5%Сам.
InfoVQAtest84.5%Сам.
MVBench73.6%Сам.
MTVQA30.9%Сам.

Reasoning

VCR_en_easy91.9%Сам.

Spatial Reasoning

RealWorldQA77.8%Сам.

Индексы оценки AA

Нет данных AA оценки

Оценки категорий LLM Stats

Image To Text
90
Spatial Reasoning
80
Vision
80
Long Context
80
Multimodal
80
Video
70
Math
70
Reasoning
70
General
60
Healthcare
60

Цены

Нет данных о ценах

Скорость

Нет данных о скорости

Доступные провайдеры

(Внутренние единицы LS)

Нет данных провайдеров

Внешние ссылки