Grok-1.5V

xAIGrokProprietary

Описание

A multimodal model capable of processing text and visual information, including documents, diagrams, charts, screenshots, and photographs. Notable for strong real-world spatial understanding capabilities.

Дата выхода

2024-04-12

Параметры

—

Длина контекста

—

Модальности

—

Радар способностей

general

coding

reasoning

scienceоцен.

agents

multimodal

Science использует прокси на основе рассуждений, когда специализированные научные бенчмарки недоступны.

Рейтинги

Домен	#Место	Оценка	Источник
Multimodal Ranking	26	82.0	LS

Оценки бенчмарков (LLM Stats)

General

MMMU

53.6%Сам.

Image To Text

DocVQA

85.6%Сам.

TextVQA

78.1%Сам.

Math

MathVista

52.8%Сам.

Multimodal

AI2D

88.3%Сам.

ChartQA

76.1%Сам.

Spatial Reasoning

RealWorldQA

68.7%Сам.

Индексы оценки AA

Нет данных AA оценки

Оценки категорий LLM Stats

Image To Text

Spatial Reasoning

Vision

Multimodal

Reasoning

General

Healthcare

Math

Цены

Нет данных о ценах

Скорость

Нет данных о скорости

Доступные провайдеры

(Внутренние единицы LS)

Нет данных провайдеров

Внешние ссылки

LLM Stats