メインコンテンツへスキップ

DeepSeek R1 Zero

DeepSeekDeepSeekOpen WeightMIT · Commercial OK

説明

DeepSeek-R1-Zero, a model trained via large-scale reinforcement learning (RL) without supervised fine-tuning (SFT) as a preliminary step, demonstrated remarkable performance on reasoning. With RL, DeepSeek-R1-Zero naturally emerged with numerous powerful and interesting reasoning behaviors. However, DeepSeek-R1-Zero encounters challenges such as endless repetition, poor readability, and language mixing. To address these issues and further enhance reasoning performance, we introduce DeepSeek-R1, which incorporates cold-start data before RL. DeepSeek-R1 achieves performance comparable to OpenAI-o1 across math, code, and reasoning tasks.

リリース日
2025-01-20
パラメータ
671.0B
コンテキスト長
モダリティ

能力レーダー

60
general
50
coding
90
reasoning
60
science推定
0
agents
0
multimodal

専門的な科学ベンチマークが利用できない場合、Scienceは推論プロキシを使用して推定します。

ランキング

ランキングデータがありません

ベンチマークスコア (LLM Stats)

Biology

GPQA73.3%自己申告

Code

LiveCodeBench50.0%自己申告

Math

MATH-50095.9%自己申告
AIME 202486.7%自己申告

AA評価指数

AA評価データがありません

LLM Statsカテゴリスコア

Math
90
Reasoning
80
Biology
70
Chemistry
70
Physics
70
General
60
Code
50

価格設定

価格データがありません

速度

速度データがありません

利用可能なプロバイダー

(LS内部単位)

プロバイダーデータがありません

外部リンク