Saltar al contenido principal

Llama 3.2 Instruct 90B (Vision)

MetaLlamaOpen WeightLlama 3.2 · Commercial OK

Descripción

Llama 3.2 90B is a large multimodal language model optimized for visual recognition, image reasoning, and captioning tasks. It supports a context length of 128,000 tokens and is designed for deployment on edge and mobile devices, offering state-of-the-art performance in image understanding and generative tasks.

Fecha de lanzamiento
2024-09-25
Parámetros
90.0B
Longitud del contexto
Modalidades
image, text

Radar de capacidades

27
general
22
coding
30
reasoning
29
scienceest.
0
agents
85
multimodal

Science usa un proxy de razonamiento cuando los benchmarks científicos dedicados no están disponibles.

Rankings

Dominio#PosiciónPuntuaciónFuente
Code Ranking315
23.0
AA
General Ranking334
33.0
AA
Math Reasoning253
33.0
AA
Multimodal Ranking28
81.0
LS
Science355
30.0
AA

Puntuaciones de benchmarks (LLM Stats)

Biology

GPQA46.7%Aut.

Finance

MMLU86.0%Aut.

General

MMMU60.3%Aut.
MMMU-Pro45.2%Aut.

Image To Text

DocVQA90.1%Aut.
VQAv278.1%Aut.
TextVQA73.5%Aut.

Math

MGSM86.9%Aut.
MATH68.0%Aut.
MathVista57.3%Aut.

Multimodal

AI2D92.3%Aut.
ChartQA85.5%Aut.
InfographicsQA56.8%Aut.

Índices de evaluación AA

Intelligence Index
11.9
Mmlu Pro
0.7
Math 500
0.6
Gpqa
0.4
Scicode
0.2
Livecodebench
0.2
Aime
0.1
Hle
0.0

Puntuaciones por categoría LLM Stats

Finance
90
Language
90
Legal
90
Image To Text
80
Vision
70
Healthcare
70
Math
70
Multimodal
70
Reasoning
70
General
60
Biology
50
Chemistry
50
Physics
50

Precios

Precio de entrada$1.38 / 1M tokens
Precio de salida$1.38 / 1M tokens
Precio mixto (3:1)$1.38 / 1M tokens

Velocidad

Tokens/seg54.2 tokens/s
Retraso del primer token0.54s
Tiempo hasta la respuesta0.54s

Proveedores disponibles

(Unidades internas LS)

No hay datos de proveedores disponibles

Fuentes externas