Passer au contenu principal

Gemini 1.0 Ultra

GoogleGemini
Date de sortie
2023-12-06
Paramètres
Longueur du contexte
1.0M
Modalités
audio, image, pdf, text, video

Radar de capacités

5
general
18
coding
80
reasoning
77
scienceest.
60
agents
80
multimodal

Science utilise un proxy de raisonnement lorsque les benchmarks scientifiques dédiés ne sont pas disponibles.

Classements

Domaine#RangScoreSource
Classement codage347
22.0
AA
Classement général522
6.0
AA

Scores de benchmarks (LLM Stats)

Agents

Vending-Bench 2363500.0%Aut.
t2-bench90.2%Aut.
MCP Atlas57.4%Aut.
Toolathlon49.4%Aut.
Terminal-Bench 2.047.6%Aut.
Finance Agent v242.5%Aut.
Legal Agent Benchmark0.0%Aut.

Biology

GPQA90.4%Aut.

Code

LiveCodeBench Pro2316.00 / 3000Aut.
SWE-Bench Verified78.0%Aut.

Factuality

SimpleQA68.7%Aut.
FACTS Grounding61.9%Aut.

General

Global PIQA92.8%Aut.
MMMLU91.8%Aut.
MMMU-Pro81.2%Aut.
LiveBench72.4%Aut.
MRCR v2 (8-needle)22.1%Aut.

Grounding

ScreenSpot Pro69.1%Aut.

Healthcare

VideoMMMU86.9%Aut.

Math

AIME 202599.7%Aut.
Humanity's Last Exam43.5%Aut.

Multimodal

CharXiv-R80.3%Aut.
OmniDocBench 1.512.1%Aut.

Reasoning

ARC-AGI v233.6%Aut.

Indices d'évaluation AA

Coding Index
17.6
Intelligence Index
4.6

Scores par catégorie LLM Stats

Code
100
Agents
100
General
100
Reasoning
100
Language
90
Physics
90
Biology
90
Chemistry
90
Math
80
Frontend Development
80
Multimodal
70
Factuality
70
Grounding
70
Tool Calling
60
Vision
60
Spatial Reasoning
50
Healthcare
50
Finance
40
Long Context
20
Structured Output
10
Legal
0

Tarification

Prix d'entréeGratuit
Prix de sortieGratuit
Prix mixte (3:1)Gratuit
Prix de lecture cache$0.05 / 1M tokens

Vitesse

Tokens/sec0.0
Délai du premier token0.00s
Temps de réponse0.00s

Classement des Prix par Fournisseur

Aucune donnée de fournisseur disponible

Sources externes