Qwen2-VL-72B-Instruct

Alibaba Cloud / Qwen TeamQwenОткрытые весаtongyi-qianwen

Описание

An instruction-tuned, large multimodal model that excels at visual understanding and step-by-step reasoning. It supports image and video input, with dynamic resolution handling and improved positional embeddings (M-ROPE), enabling advanced capabilities such as complex problem solving, multilingual text recognition in images, and agent-like interactions in video contexts.

Дата выхода

2024-08-29

Параметры

73.4B

Длина контекста

—

Модальности

—

Радар способностей

general

coding

reasoning

scienceоцен.

agents

multimodal

Science использует прокси на основе рассуждений, когда специализированные научные бенчмарки недоступны.

Рейтинги

Домен	#Место	Оценка	Источник
Мультимодальный рейтинг	40	78.0	LS
Рассуждения	6	92.0	LS

Оценки бенчмарков (LLM Stats)

General

MMVetGPT4Turbo

74.0%Сам.

MMMUval

64.5%Сам.

MMMU-Pro

46.2%Сам.

Image To Text

OCRBench

87.7%Сам.

TextVQA

85.5%Сам.

Long Context

EgoSchema

77.9%Сам.

Math

MathVista-Mini

70.5%Сам.

Multimodal

DocVQAtest

96.5%Сам.

ChartQA

88.3%Сам.

MMBench

86.5%Сам.

InfoVQAtest

84.5%Сам.

MVBench

73.6%Сам.

MTVQA

30.9%Сам.

Reasoning

VCR_en_easy

91.9%Сам.

Spatial Reasoning

RealWorldQA

77.8%Сам.

Индексы оценки AA

Нет данных AA оценки

Оценки категорий LLM Stats

Image To Text

Long Context

Multimodal

Spatial Reasoning

Vision

Math

Reasoning

Video

General

Healthcare

Цены

Нет данных о ценах

Скорость

Нет данных о скорости

Рейтинг цен провайдеров

Нет данных провайдеров

Внешние ссылки

LLM Stats Artificial Analysis