Qwen2-VL-72B-Instruct
Alibaba Cloud / Qwen TeamQwenOpen Weighttongyi-qianwen
Описание
An instruction-tuned, large multimodal model that excels at visual understanding and step-by-step reasoning. It supports image and video input, with dynamic resolution handling and improved positional embeddings (M-ROPE), enabling advanced capabilities such as complex problem solving, multilingual text recognition in images, and agent-like interactions in video contexts.
Дата выхода
2024-08-29
Параметры
73.4B
Длина контекста
—
Модальности
—
Радар способностей
60
general
0
coding
70
reasoning
51
scienceоцен.
0
agents
90
multimodal
Science использует прокси на основе рассуждений, когда специализированные научные бенчмарки недоступны.
Рейтинги
| Домен | #Место | Оценка | Источник |
|---|---|---|---|
| Multimodal Ranking | 36 | 78.0 | LS |
| Reasoning | 6 | 92.0 | LS |
Оценки бенчмарков (LLM Stats)
General
MMVetGPT4Turbo
74.0%Сам.
MMMUval
64.5%Сам.
MMMU-Pro
46.2%Сам.
Image To Text
OCRBench
87.7%Сам.
TextVQA
85.5%Сам.
Long Context
EgoSchema
77.9%Сам.
Math
MathVista-Mini
70.5%Сам.
Multimodal
DocVQAtest
96.5%Сам.
ChartQA
88.3%Сам.
MMBench
86.5%Сам.
InfoVQAtest
84.5%Сам.
MVBench
73.6%Сам.
MTVQA
30.9%Сам.
Reasoning
VCR_en_easy
91.9%Сам.
Spatial Reasoning
RealWorldQA
77.8%Сам.
Индексы оценки AA
Нет данных AA оценки
Оценки категорий LLM Stats
Image To Text90
Spatial Reasoning80
Vision80
Long Context80
Multimodal80
Video70
Math70
Reasoning70
General60
Healthcare60
Цены
Нет данных о ценах
Скорость
Нет данных о скорости
Доступные провайдеры
(Внутренние единицы LS)Нет данных провайдеров