DeepSeek R1 Zero
Descripción
DeepSeek-R1-Zero, a model trained via large-scale reinforcement learning (RL) without supervised fine-tuning (SFT) as a preliminary step, demonstrated remarkable performance on reasoning. With RL, DeepSeek-R1-Zero naturally emerged with numerous powerful and interesting reasoning behaviors. However, DeepSeek-R1-Zero encounters challenges such as endless repetition, poor readability, and language mixing. To address these issues and further enhance reasoning performance, we introduce DeepSeek-R1, which incorporates cold-start data before RL. DeepSeek-R1 achieves performance comparable to OpenAI-o1 across math, code, and reasoning tasks.
Radar de capacidades
Science usa un proxy de razonamiento cuando los benchmarks científicos dedicados no están disponibles.
Rankings
No hay datos de ranking disponibles
Puntuaciones de benchmarks (LLM Stats)
Biology
Code
Math
Índices de evaluación AA
No hay datos de evaluación AA disponibles
Puntuaciones por categoría LLM Stats
Precios
No hay datos de precios disponibles
Velocidad
No hay datos de velocidad disponibles
Proveedores disponibles
(Unidades internas LS)No hay datos de proveedores disponibles