DeepSeek R1 Zero
Описание
DeepSeek-R1-Zero, a model trained via large-scale reinforcement learning (RL) without supervised fine-tuning (SFT) as a preliminary step, demonstrated remarkable performance on reasoning. With RL, DeepSeek-R1-Zero naturally emerged with numerous powerful and interesting reasoning behaviors. However, DeepSeek-R1-Zero encounters challenges such as endless repetition, poor readability, and language mixing. To address these issues and further enhance reasoning performance, we introduce DeepSeek-R1, which incorporates cold-start data before RL. DeepSeek-R1 achieves performance comparable to OpenAI-o1 across math, code, and reasoning tasks.
Радар способностей
Science использует прокси на основе рассуждений, когда специализированные научные бенчмарки недоступны.
Рейтинги
Нет данных рейтинга
Оценки бенчмарков (LLM Stats)
Biology
Code
Math
Индексы оценки AA
Нет данных AA оценки
Оценки категорий LLM Stats
Цены
Нет данных о ценах
Скорость
Нет данных о скорости
Доступные провайдеры
(Внутренние единицы LS)Нет данных провайдеров