Claude Instant
AnthropicClaude
Fecha de lanzamiento
2023-03-14
Parámetros
—
Longitud del contexto
1.0M
Modalidades
image, pdf, text
Radar de capacidades
15
general
9
coding
15
reasoning
24
scienceest.
80
agents
80
multimodal
Science usa un proxy de razonamiento cuando los benchmarks científicos dedicados no están disponibles.
Rankings
| Dominio | #Posición | Puntuación | Fuente |
|---|---|---|---|
| Ranking de codificación | 445 | 10.0 | AA |
| Ranking general | 478 | 16.0 | AA |
| Razonamiento matemático | 337 | 11.0 | AA |
| Ciencia | 457 | 17.0 | AA |
Puntuaciones de benchmarks (LLM Stats)
Agents
Vending-Bench 2
801759.0%Aut.
GDPval-AA
1606.00 / 3000Aut.
DeepSearchQA
91.3%Aut.
BrowseComp
84.0%Aut.
CyberGym
73.8%Aut.
OSWorld
72.7%Aut.
Terminal-Bench 2.0
65.4%Aut.
MCP Atlas
62.7%Aut.
Finance Agent
60.7%Aut.
FrontierSWE
56.0%Aut.
OpenRCA
34.9%Aut.
Legal Agent Benchmark
4.2%Aut.
Biology
GPQA
91.3%Aut.
Code
SWE-Bench Verified
80.8%Aut.
SWE-bench Multilingual
77.8%Aut.
Communication
Tau2 Telecom
99.3%Aut.
Tau2 Retail
91.9%Aut.
General
MMMLU
91.1%Aut.
MMMU-Pro
77.3%Aut.
LiveBench
76.3%Aut.
MRCR v2 (8-needle)
76.0%Aut.
Healthcare
FigQA
78.3%Aut.
Long Context
Graphwalks parents >128k
95.4%Aut.
Graphwalks BFS >128k
61.5%Aut.
Math
AIME 2025
99.8%Aut.
Humanity's Last Exam
53.1%Aut.
Multimodal
CharXiv-R
77.4%Aut.
Reasoning
ARC-AGI v2
68.8%Aut.
Índices de evaluación AA
Coding Index7.8
Intelligence Index2.1
Mmlu Pro0.4
Gpqa0.3
Math 5000.3
Livecodebench0.1
Hle0.0
Aime0.0
Puntuaciones por categoría LLM Stats
Agents100
Finance100
Legal100
Reasoning100
General100
Communication100
Physics90
Search90
Language90
Biology90
Chemistry90
Math80
Multimodal80
Safety80
Spatial Reasoning80
Long Context80
Frontend Development80
Healthcare80
Tool Calling80
Code70
Vision70
Precios
Precio de entradaGratis
Precio de salidaGratis
Precio mixto (3:1)Gratis
Precio de lectura caché$0.5 / 1M tokens
Precio de escritura caché$6.25 / 1M tokens
Velocidad
Tokens/seg0.0
Retraso del primer token0.00s
Tiempo hasta la respuesta0.00s
Ranking de Precios por Proveedor
No hay datos de proveedores disponibles