Saltar al contenido principal

DeepSeek VL2 Small

DeepSeekDeepSeekOpen Weightdeepseek

Descripción

An advanced series of large Mixture-of-Experts (MoE) Vision-Language Models that significantly improves upon its predecessor, DeepSeek-VL. DeepSeek-VL2 demonstrates superior capabilities across various tasks, including but not limited to visual question answering, optical character recognition, document/table/chart understanding, and visual grounding.

Fecha de lanzamiento
2024-12-13
Parámetros
16.0B
Longitud del contexto
164K
Modalidades
text

Radar de capacidades

60
general
0
coding
60
reasoning
43
scienceest.
0
agents
0
multimodal

Science usa un proxy de razonamiento cuando los benchmarks científicos dedicados no están disponibles.

Rankings

Dominio#PosiciónPuntuaciónFuente
Multimodal Ranking48
75.0
LS

Puntuaciones de benchmarks (LLM Stats)

General

MMT-Bench62.9%Aut.
MMStar57.0%Aut.
MMMU48.0%Aut.

Image To Text

DocVQA92.3%Aut.
TextVQA83.4%Aut.
OCRBench83.4%Aut.

Math

MathVista60.7%Aut.

Multimodal

ChartQA84.5%Aut.
MMBench80.3%Aut.
AI2D80.0%Aut.
MMBench-V1.179.3%Aut.
InfoVQA75.8%Aut.
MME21.2%Aut.

Spatial Reasoning

RealWorldQA65.4%Aut.

Índices de evaluación AA

No hay datos de evaluación AA disponibles

Puntuaciones por categoría LLM Stats

Image To Text
90
Spatial Reasoning
70
Vision
70
Multimodal
70
General
60
Math
60
Reasoning
60
Healthcare
50

Precios

Precio de entrada$0.32 / 1M tokens
Precio de salida$0.89 / 1M tokens
Precio mixto (3:1)$0.4625 / 1M tokens

Velocidad

No hay datos de velocidad disponibles

Proveedores disponibles

(Unidades internas LS)

No hay datos de proveedores disponibles

Fuentes externas