Llama 3.2 Instruct 11B (Vision)
MetaLlamaOpen WeightLlama 3.2 Community License
설명
Llama 3.2 11B Vision Instruct is an instruction-tuned multimodal large language model optimized for visual recognition, image reasoning, captioning, and answering general questions about an image. It accepts text and images as input and generates text as output.
출시일
2024-09-25
파라미터
10.6B
컨텍스트 길이
131K
모달리티
image, text
능력 레이더
19
general
7
coding
13
reasoning
15
science추정
0
agents
90
multimodal
전용 과학 벤치마크가 없을 때 Science는 추론 프록시를 사용하여 추정합니다.
랭킹
| 도메인 | #순위 | 점수 | 소스 |
|---|---|---|---|
| Code Ranking | 432 | 8.0 | AA |
| General Ranking | 428 | 21.0 | AA |
| Math Reasoning | 328 | 13.0 | AA |
| Multimodal Ranking | 23 | 84.0 | LS |
| Science | 455 | 14.0 | AA |
벤치마크 점수 (LLM Stats)
Biology
GPQA
32.8%자체 보고
Finance
MMLU
73.0%자체 보고
General
MMMU
50.7%자체 보고
MMMU-Pro
33.0%자체 보고
Image To Text
DocVQA
88.4%자체 보고
VQAv2 (test)
75.2%자체 보고
Math
MGSM
68.9%자체 보고
MATH
51.9%자체 보고
MathVista
51.5%자체 보고
Multimodal
AI2D
91.1%자체 보고
ChartQA
83.4%자체 보고
AA 평가 지수
Intelligence Index8.7
Coding Index4.3
Math Index1.7
Math 5000.5
Mmlu Pro0.5
Ifbench0.3
Gpqa0.2
Tau20.1
Lcr0.1
Scicode0.1
Livecodebench0.1
Aime0.1
Hle0.1
Aime 250.0
Terminalbench Hard0.0
LLM Stats 카테고리 점수
Image To Text90
Vision70
Finance70
Language70
Legal70
Multimodal70
Healthcare60
Math60
Reasoning60
General50
Biology30
Chemistry30
Physics30
가격
입력 가격$0.245 / 1M tokens
출력 가격$0.245 / 1M tokens
혼합 가격 (3:1)$0.245 / 1M tokens
속도
토큰/초86.7 tokens/s
첫 토큰 지연0.52s
첫 응답 지연0.52s
사용 가능한 프로바이더
(LS 내부 단위)프로바이더 데이터가 없습니다