Grok-1.5V
xAIGrokProprietary
Descripción
A multimodal model capable of processing text and visual information, including documents, diagrams, charts, screenshots, and photographs. Notable for strong real-world spatial understanding capabilities.
Fecha de lanzamiento
2024-04-12
Parámetros
—
Longitud del contexto
—
Modalidades
—
Radar de capacidades
50
general
0
coding
50
reasoning
43
scienceest.
0
agents
80
multimodal
Science usa un proxy de razonamiento cuando los benchmarks científicos dedicados no están disponibles.
Rankings
| Dominio | #Posición | Puntuación | Fuente |
|---|---|---|---|
| Multimodal Ranking | 26 | 82.0 | LS |
Puntuaciones de benchmarks (LLM Stats)
General
MMMU
53.6%Aut.
Image To Text
DocVQA
85.6%Aut.
TextVQA
78.1%Aut.
Math
MathVista
52.8%Aut.
Multimodal
AI2D
88.3%Aut.
ChartQA
76.1%Aut.
Spatial Reasoning
RealWorldQA
68.7%Aut.
Índices de evaluación AA
No hay datos de evaluación AA disponibles
Puntuaciones por categoría LLM Stats
Image To Text80
Spatial Reasoning70
Vision70
Multimodal70
Reasoning70
General50
Healthcare50
Math50
Precios
No hay datos de precios disponibles
Velocidad
No hay datos de velocidad disponibles
Proveedores disponibles
(Unidades internas LS)No hay datos de proveedores disponibles