Llama 3.2 Instruct 11B (Vision)
MetaLlamaOpen WeightLlama 3.2 Community License
Описание
Llama 3.2 11B Vision Instruct is an instruction-tuned multimodal large language model optimized for visual recognition, image reasoning, captioning, and answering general questions about an image. It accepts text and images as input and generates text as output.
Дата выхода
2024-09-25
Параметры
10.6B
Длина контекста
131K
Модальности
image, text
Радар способностей
19
general
7
coding
13
reasoning
15
scienceоцен.
0
agents
90
multimodal
Science использует прокси на основе рассуждений, когда специализированные научные бенчмарки недоступны.
Рейтинги
| Домен | #Место | Оценка | Источник |
|---|---|---|---|
| Code Ranking | 432 | 8.0 | AA |
| General Ranking | 428 | 21.0 | AA |
| Math Reasoning | 328 | 13.0 | AA |
| Multimodal Ranking | 23 | 84.0 | LS |
| Science | 455 | 14.0 | AA |
Оценки бенчмарков (LLM Stats)
Biology
GPQA
32.8%Сам.
Finance
MMLU
73.0%Сам.
General
MMMU
50.7%Сам.
MMMU-Pro
33.0%Сам.
Image To Text
DocVQA
88.4%Сам.
VQAv2 (test)
75.2%Сам.
Math
MGSM
68.9%Сам.
MATH
51.9%Сам.
MathVista
51.5%Сам.
Multimodal
AI2D
91.1%Сам.
ChartQA
83.4%Сам.
Индексы оценки AA
Intelligence Index8.7
Coding Index4.3
Math Index1.7
Math 5000.5
Mmlu Pro0.5
Ifbench0.3
Gpqa0.2
Tau20.1
Lcr0.1
Scicode0.1
Livecodebench0.1
Aime0.1
Hle0.1
Aime 250.0
Terminalbench Hard0.0
Оценки категорий LLM Stats
Image To Text90
Vision70
Finance70
Language70
Legal70
Multimodal70
Healthcare60
Math60
Reasoning60
General50
Biology30
Chemistry30
Physics30
Цены
Цена ввода$0.245 / 1M tokens
Цена вывода$0.245 / 1M tokens
Смешанная цена (3:1)$0.245 / 1M tokens
Скорость
Токенов/сек86.7 tokens/s
Задержка первого токена0.52s
Время до первого ответа0.52s
Доступные провайдеры
(Внутренние единицы LS)Нет данных провайдеров