Перейти к основному содержанию

Grok-1.5V

xAIGrokProprietary

Описание

A multimodal model capable of processing text and visual information, including documents, diagrams, charts, screenshots, and photographs. Notable for strong real-world spatial understanding capabilities.

Дата выхода
2024-04-12
Параметры
Длина контекста
Модальности

Радар способностей

50
general
0
coding
50
reasoning
43
scienceоцен.
0
agents
80
multimodal

Science использует прокси на основе рассуждений, когда специализированные научные бенчмарки недоступны.

Рейтинги

Домен#МестоОценкаИсточник
Multimodal Ranking26
82.0
LS

Оценки бенчмарков (LLM Stats)

General

MMMU53.6%Сам.

Image To Text

DocVQA85.6%Сам.
TextVQA78.1%Сам.

Math

MathVista52.8%Сам.

Multimodal

AI2D88.3%Сам.
ChartQA76.1%Сам.

Spatial Reasoning

RealWorldQA68.7%Сам.

Индексы оценки AA

Нет данных AA оценки

Оценки категорий LLM Stats

Image To Text
80
Spatial Reasoning
70
Vision
70
Multimodal
70
Reasoning
70
General
50
Healthcare
50
Math
50

Цены

Нет данных о ценах

Скорость

Нет данных о скорости

Доступные провайдеры

(Внутренние единицы LS)

Нет данных провайдеров

Внешние ссылки