Grok-1.5V

xAIGrokProprietary

Descripción

A multimodal model capable of processing text and visual information, including documents, diagrams, charts, screenshots, and photographs. Notable for strong real-world spatial understanding capabilities.

Fecha de lanzamiento

2024-04-12

Parámetros

—

Longitud del contexto

—

Modalidades

—

Radar de capacidades

general

coding

reasoning

scienceest.

agents

multimodal

Science usa un proxy de razonamiento cuando los benchmarks científicos dedicados no están disponibles.

Rankings

Dominio	#Posición	Puntuación	Fuente
Multimodal Ranking	26	82.0	LS

Puntuaciones de benchmarks (LLM Stats)

General

MMMU

53.6%Aut.

Image To Text

DocVQA

85.6%Aut.

TextVQA

78.1%Aut.

Math

MathVista

52.8%Aut.

Multimodal

AI2D

88.3%Aut.

ChartQA

76.1%Aut.

Spatial Reasoning

RealWorldQA

68.7%Aut.

Índices de evaluación AA

No hay datos de evaluación AA disponibles

Puntuaciones por categoría LLM Stats

Image To Text

Spatial Reasoning

Vision

Multimodal

Reasoning

General

Healthcare

Math

Precios

No hay datos de precios disponibles

Velocidad

No hay datos de velocidad disponibles

Proveedores disponibles

(Unidades internas LS)

No hay datos de proveedores disponibles

Fuentes externas

LLM Stats