Llama 3.2 Instruct 11B (Vision)
MetaLlamaOpen WeightLlama 3.2 Community License
説明
Llama 3.2 11B Vision Instruct is an instruction-tuned multimodal large language model optimized for visual recognition, image reasoning, captioning, and answering general questions about an image. It accepts text and images as input and generates text as output.
リリース日
2024-09-25
パラメータ
10.6B
コンテキスト長
131K
モダリティ
image, text
能力レーダー
19
general
7
coding
13
reasoning
15
science推定
0
agents
90
multimodal
専門的な科学ベンチマークが利用できない場合、Scienceは推論プロキシを使用して推定します。
ランキング
| ドメイン | #順位 | スコア | ソース |
|---|---|---|---|
| Code Ranking | 432 | 8.0 | AA |
| General Ranking | 428 | 21.0 | AA |
| Math Reasoning | 328 | 13.0 | AA |
| Multimodal Ranking | 23 | 84.0 | LS |
| Science | 455 | 14.0 | AA |
ベンチマークスコア (LLM Stats)
Biology
GPQA
32.8%自己申告
Finance
MMLU
73.0%自己申告
General
MMMU
50.7%自己申告
MMMU-Pro
33.0%自己申告
Image To Text
DocVQA
88.4%自己申告
VQAv2 (test)
75.2%自己申告
Math
MGSM
68.9%自己申告
MATH
51.9%自己申告
MathVista
51.5%自己申告
Multimodal
AI2D
91.1%自己申告
ChartQA
83.4%自己申告
AA評価指数
Intelligence Index8.7
Coding Index4.3
Math Index1.7
Math 5000.5
Mmlu Pro0.5
Ifbench0.3
Gpqa0.2
Tau20.1
Lcr0.1
Scicode0.1
Livecodebench0.1
Aime0.1
Hle0.1
Aime 250.0
Terminalbench Hard0.0
LLM Statsカテゴリスコア
Image To Text90
Vision70
Finance70
Language70
Legal70
Multimodal70
Healthcare60
Math60
Reasoning60
General50
Biology30
Chemistry30
Physics30
価格設定
入力価格$0.245 / 1M tokens
出力価格$0.245 / 1M tokens
混合価格(3:1)$0.245 / 1M tokens
速度
トークン/秒86.7 tokens/s
初トークン遅延0.52s
初回答遅延0.52s
利用可能なプロバイダー
(LS内部単位)プロバイダーデータがありません