DeepSeek V4 Flash (Non-reasoning)
Descripción
DeepSeek-V4-Flash-Max is the maximum reasoning effort mode of DeepSeek-V4-Flash, a 284B-parameter MoE model with 13B activated parameters and a 1M-token context window. Sharing the V4 series' hybrid attention architecture (Compressed Sparse Attention combined with Heavily Compressed Attention), Manifold-Constrained Hyper-Connections, and Muon optimizer, V4-Flash-Max delivers reasoning performance comparable to V4-Pro when given a larger thinking budget while operating at a fraction of the parameter scale. It is pre-trained on more than 32T tokens and post-trained with a two-stage paradigm of domain-specific expert cultivation followed by on-policy distillation.
Radar de capacidades
Science usa un proxy de razonamiento cuando los benchmarks científicos dedicados no están disponibles.
Rankings
| Dominio | #Posición | Puntuación | Fuente |
|---|---|---|---|
| Capacidad agéntica | 52 | 56.0 | LS |
| Ranking de codificación | 194 | 49.0 | AA |
| Ranking general | 126 | 60.0 | AA |
| Ciencia | 191 | 49.0 | AA |
Puntuaciones de benchmarks (LLM Stats)
Agents
Biology
Code
Factuality
Finance
General
Math
Índices de evaluación AA
Puntuaciones por categoría LLM Stats
Precios
Velocidad
Ranking de Precios por Proveedor
Ranking de Precios por Proveedor
11 proveedores
Comparar precios entre diferentes proveedores de API para este modelo.