Перейти к основному содержанию

DeepSeek R1 Zero

DeepSeekDeepSeekOpen WeightMIT · Commercial OK

Описание

DeepSeek-R1-Zero, a model trained via large-scale reinforcement learning (RL) without supervised fine-tuning (SFT) as a preliminary step, demonstrated remarkable performance on reasoning. With RL, DeepSeek-R1-Zero naturally emerged with numerous powerful and interesting reasoning behaviors. However, DeepSeek-R1-Zero encounters challenges such as endless repetition, poor readability, and language mixing. To address these issues and further enhance reasoning performance, we introduce DeepSeek-R1, which incorporates cold-start data before RL. DeepSeek-R1 achieves performance comparable to OpenAI-o1 across math, code, and reasoning tasks.

Дата выхода
2025-01-20
Параметры
671.0B
Длина контекста
Модальности

Радар способностей

60
general
50
coding
90
reasoning
60
scienceоцен.
0
agents
0
multimodal

Science использует прокси на основе рассуждений, когда специализированные научные бенчмарки недоступны.

Рейтинги

Нет данных рейтинга

Оценки бенчмарков (LLM Stats)

Biology

GPQA73.3%Сам.

Code

LiveCodeBench50.0%Сам.

Math

MATH-50095.9%Сам.
AIME 202486.7%Сам.

Индексы оценки AA

Нет данных AA оценки

Оценки категорий LLM Stats

Math
90
Reasoning
80
Biology
70
Chemistry
70
Physics
70
General
60
Code
50

Цены

Нет данных о ценах

Скорость

Нет данных о скорости

Доступные провайдеры

(Внутренние единицы LS)

Нет данных провайдеров

Внешние ссылки