Saltar al contenido principal

Grok-1.5V

xAIGrokProprietary

Descripción

A multimodal model capable of processing text and visual information, including documents, diagrams, charts, screenshots, and photographs. Notable for strong real-world spatial understanding capabilities.

Fecha de lanzamiento
2024-04-12
Parámetros
Longitud del contexto
Modalidades

Radar de capacidades

50
general
0
coding
50
reasoning
43
scienceest.
0
agents
80
multimodal

Science usa un proxy de razonamiento cuando los benchmarks científicos dedicados no están disponibles.

Rankings

Dominio#PosiciónPuntuaciónFuente
Multimodal Ranking26
82.0
LS

Puntuaciones de benchmarks (LLM Stats)

General

MMMU53.6%Aut.

Image To Text

DocVQA85.6%Aut.
TextVQA78.1%Aut.

Math

MathVista52.8%Aut.

Multimodal

AI2D88.3%Aut.
ChartQA76.1%Aut.

Spatial Reasoning

RealWorldQA68.7%Aut.

Índices de evaluación AA

No hay datos de evaluación AA disponibles

Puntuaciones por categoría LLM Stats

Image To Text
80
Spatial Reasoning
70
Vision
70
Multimodal
70
Reasoning
70
General
50
Healthcare
50
Math
50

Precios

No hay datos de precios disponibles

Velocidad

No hay datos de velocidad disponibles

Proveedores disponibles

(Unidades internas LS)

No hay datos de proveedores disponibles

Fuentes externas