DeepSeek R1 Zero
Description
DeepSeek-R1-Zero, a model trained via large-scale reinforcement learning (RL) without supervised fine-tuning (SFT) as a preliminary step, demonstrated remarkable performance on reasoning. With RL, DeepSeek-R1-Zero naturally emerged with numerous powerful and interesting reasoning behaviors. However, DeepSeek-R1-Zero encounters challenges such as endless repetition, poor readability, and language mixing. To address these issues and further enhance reasoning performance, we introduce DeepSeek-R1, which incorporates cold-start data before RL. DeepSeek-R1 achieves performance comparable to OpenAI-o1 across math, code, and reasoning tasks.
Radar de capacités
Science utilise un proxy de raisonnement lorsque les benchmarks scientifiques dédiés ne sont pas disponibles.
Classements
Aucune donnée de classement disponible
Scores de benchmarks (LLM Stats)
Biology
Code
Math
Indices d'évaluation AA
Aucune donnée d'évaluation AA disponible
Scores par catégorie LLM Stats
Tarification
Aucune donnée de prix disponible
Vitesse
Aucune donnée de vitesse disponible
Fournisseurs disponibles
(Unités internes LS)Aucune donnée de fournisseur disponible