Llama 3.2 Instruct 11B (Vision)
MetaLlamaOpen WeightLlama 3.2 Community License
Descripción
Llama 3.2 11B Vision Instruct is an instruction-tuned multimodal large language model optimized for visual recognition, image reasoning, captioning, and answering general questions about an image. It accepts text and images as input and generates text as output.
Fecha de lanzamiento
2024-09-25
Parámetros
10.6B
Longitud del contexto
131K
Modalidades
image, text
Radar de capacidades
19
general
7
coding
13
reasoning
15
scienceest.
0
agents
90
multimodal
Science usa un proxy de razonamiento cuando los benchmarks científicos dedicados no están disponibles.
Rankings
| Dominio | #Posición | Puntuación | Fuente |
|---|---|---|---|
| Code Ranking | 432 | 8.0 | AA |
| General Ranking | 428 | 21.0 | AA |
| Math Reasoning | 328 | 13.0 | AA |
| Multimodal Ranking | 23 | 84.0 | LS |
| Science | 455 | 14.0 | AA |
Puntuaciones de benchmarks (LLM Stats)
Biology
GPQA
32.8%Aut.
Finance
MMLU
73.0%Aut.
General
MMMU
50.7%Aut.
MMMU-Pro
33.0%Aut.
Image To Text
DocVQA
88.4%Aut.
VQAv2 (test)
75.2%Aut.
Math
MGSM
68.9%Aut.
MATH
51.9%Aut.
MathVista
51.5%Aut.
Multimodal
AI2D
91.1%Aut.
ChartQA
83.4%Aut.
Índices de evaluación AA
Intelligence Index8.7
Coding Index4.3
Math Index1.7
Math 5000.5
Mmlu Pro0.5
Ifbench0.3
Gpqa0.2
Tau20.1
Lcr0.1
Scicode0.1
Livecodebench0.1
Aime0.1
Hle0.1
Aime 250.0
Terminalbench Hard0.0
Puntuaciones por categoría LLM Stats
Image To Text90
Vision70
Finance70
Language70
Legal70
Multimodal70
Healthcare60
Math60
Reasoning60
General50
Biology30
Chemistry30
Physics30
Precios
Precio de entrada$0.245 / 1M tokens
Precio de salida$0.245 / 1M tokens
Precio mixto (3:1)$0.245 / 1M tokens
Velocidad
Tokens/seg86.7 tokens/s
Retraso del primer token0.52s
Tiempo hasta la respuesta0.52s
Proveedores disponibles
(Unidades internas LS)No hay datos de proveedores disponibles