Llama 3.2 Instruct 11B (Vision)
MetaLlamaOpen WeightLlama 3.2 Community License
Description
Llama 3.2 11B Vision Instruct is an instruction-tuned multimodal large language model optimized for visual recognition, image reasoning, captioning, and answering general questions about an image. It accepts text and images as input and generates text as output.
Date de sortie
2024-09-25
Paramètres
10.6B
Longueur du contexte
131K
Modalités
image, text
Radar de capacités
19
general
7
coding
13
reasoning
15
scienceest.
0
agents
90
multimodal
Science utilise un proxy de raisonnement lorsque les benchmarks scientifiques dédiés ne sont pas disponibles.
Classements
| Domaine | #Rang | Score | Source |
|---|---|---|---|
| Code Ranking | 432 | 8.0 | AA |
| General Ranking | 428 | 21.0 | AA |
| Math Reasoning | 328 | 13.0 | AA |
| Multimodal Ranking | 23 | 84.0 | LS |
| Science | 455 | 14.0 | AA |
Scores de benchmarks (LLM Stats)
Biology
GPQA
32.8%Aut.
Finance
MMLU
73.0%Aut.
General
MMMU
50.7%Aut.
MMMU-Pro
33.0%Aut.
Image To Text
DocVQA
88.4%Aut.
VQAv2 (test)
75.2%Aut.
Math
MGSM
68.9%Aut.
MATH
51.9%Aut.
MathVista
51.5%Aut.
Multimodal
AI2D
91.1%Aut.
ChartQA
83.4%Aut.
Indices d'évaluation AA
Intelligence Index8.7
Coding Index4.3
Math Index1.7
Math 5000.5
Mmlu Pro0.5
Ifbench0.3
Gpqa0.2
Tau20.1
Lcr0.1
Scicode0.1
Livecodebench0.1
Aime0.1
Hle0.1
Aime 250.0
Terminalbench Hard0.0
Scores par catégorie LLM Stats
Image To Text90
Vision70
Finance70
Language70
Legal70
Multimodal70
Healthcare60
Math60
Reasoning60
General50
Biology30
Chemistry30
Physics30
Tarification
Prix d'entrée$0.245 / 1M tokens
Prix de sortie$0.245 / 1M tokens
Prix mixte (3:1)$0.245 / 1M tokens
Vitesse
Tokens/sec86.7 tokens/s
Délai du premier token0.52s
Temps de réponse0.52s
Fournisseurs disponibles
(Unités internes LS)Aucune donnée de fournisseur disponible