Saltar al contenido principal

Gemini 1.0 Ultra

GoogleGemini
Fecha de lanzamiento
2023-12-06
Parámetros
Longitud del contexto
1.0M
Modalidades
audio, image, pdf, text, video

Radar de capacidades

5
general
18
coding
80
reasoning
77
scienceest.
60
agents
80
multimodal

Science usa un proxy de razonamiento cuando los benchmarks científicos dedicados no están disponibles.

Rankings

Dominio#PosiciónPuntuaciónFuente
Ranking de codificación347
22.0
AA
Ranking general522
6.0
AA

Puntuaciones de benchmarks (LLM Stats)

Agents

Vending-Bench 2363500.0%Aut.
t2-bench90.2%Aut.
MCP Atlas57.4%Aut.
Toolathlon49.4%Aut.
Terminal-Bench 2.047.6%Aut.
Finance Agent v242.5%Aut.
Legal Agent Benchmark0.0%Aut.

Biology

GPQA90.4%Aut.

Code

LiveCodeBench Pro2316.00 / 3000Aut.
SWE-Bench Verified78.0%Aut.

Factuality

SimpleQA68.7%Aut.
FACTS Grounding61.9%Aut.

General

Global PIQA92.8%Aut.
MMMLU91.8%Aut.
MMMU-Pro81.2%Aut.
LiveBench72.4%Aut.
MRCR v2 (8-needle)22.1%Aut.

Grounding

ScreenSpot Pro69.1%Aut.

Healthcare

VideoMMMU86.9%Aut.

Math

AIME 202599.7%Aut.
Humanity's Last Exam43.5%Aut.

Multimodal

CharXiv-R80.3%Aut.
OmniDocBench 1.512.1%Aut.

Reasoning

ARC-AGI v233.6%Aut.

Índices de evaluación AA

Coding Index
17.6
Intelligence Index
4.6

Puntuaciones por categoría LLM Stats

Code
100
Agents
100
General
100
Reasoning
100
Language
90
Physics
90
Biology
90
Chemistry
90
Math
80
Frontend Development
80
Multimodal
70
Factuality
70
Grounding
70
Tool Calling
60
Vision
60
Spatial Reasoning
50
Healthcare
50
Finance
40
Long Context
20
Structured Output
10
Legal
0

Precios

Precio de entradaGratis
Precio de salidaGratis
Precio mixto (3:1)Gratis
Precio de lectura caché$0.05 / 1M tokens

Velocidad

Tokens/seg0.0
Retraso del primer token0.00s
Tiempo hasta la respuesta0.00s

Ranking de Precios por Proveedor

No hay datos de proveedores disponibles

Fuentes externas