Перейти к основному содержанию

Llama 3.2 Instruct 11B (Vision)

MetaLlamaOpen WeightLlama 3.2 Community License

Описание

Llama 3.2 11B Vision Instruct is an instruction-tuned multimodal large language model optimized for visual recognition, image reasoning, captioning, and answering general questions about an image. It accepts text and images as input and generates text as output.

Дата выхода
2024-09-25
Параметры
10.6B
Длина контекста
131K
Модальности
image, text

Радар способностей

19
general
7
coding
13
reasoning
15
scienceоцен.
0
agents
90
multimodal

Science использует прокси на основе рассуждений, когда специализированные научные бенчмарки недоступны.

Рейтинги

Домен#МестоОценкаИсточник
Code Ranking432
8.0
AA
General Ranking428
21.0
AA
Math Reasoning328
13.0
AA
Multimodal Ranking23
84.0
LS
Science455
14.0
AA

Оценки бенчмарков (LLM Stats)

Biology

GPQA32.8%Сам.

Finance

MMLU73.0%Сам.

General

MMMU50.7%Сам.
MMMU-Pro33.0%Сам.

Image To Text

DocVQA88.4%Сам.
VQAv2 (test)75.2%Сам.

Math

MGSM68.9%Сам.
MATH51.9%Сам.
MathVista51.5%Сам.

Multimodal

AI2D91.1%Сам.
ChartQA83.4%Сам.

Индексы оценки AA

Intelligence Index
8.7
Coding Index
4.3
Math Index
1.7
Math 500
0.5
Mmlu Pro
0.5
Ifbench
0.3
Gpqa
0.2
Tau2
0.1
Lcr
0.1
Scicode
0.1
Livecodebench
0.1
Aime
0.1
Hle
0.1
Aime 25
0.0
Terminalbench Hard
0.0

Оценки категорий LLM Stats

Image To Text
90
Vision
70
Finance
70
Language
70
Legal
70
Multimodal
70
Healthcare
60
Math
60
Reasoning
60
General
50
Biology
30
Chemistry
30
Physics
30

Цены

Цена ввода$0.245 / 1M tokens
Цена вывода$0.245 / 1M tokens
Смешанная цена (3:1)$0.245 / 1M tokens

Скорость

Токенов/сек86.7 tokens/s
Задержка первого токена0.52s
Время до первого ответа0.52s

Доступные провайдеры

(Внутренние единицы LS)

Нет данных провайдеров

Внешние ссылки