DeepSeek R1 Zero

DeepSeekDeepSeekОткрытые весаMIT · Коммерческое использование

Описание

DeepSeek-R1-Zero, a model trained via large-scale reinforcement learning (RL) without supervised fine-tuning (SFT) as a preliminary step, demonstrated remarkable performance on reasoning. With RL, DeepSeek-R1-Zero naturally emerged with numerous powerful and interesting reasoning behaviors. However, DeepSeek-R1-Zero encounters challenges such as endless repetition, poor readability, and language mixing. To address these issues and further enhance reasoning performance, we introduce DeepSeek-R1, which incorporates cold-start data before RL. DeepSeek-R1 achieves performance comparable to OpenAI-o1 across math, code, and reasoning tasks.

Дата выхода

2025-01-20

Параметры

671.0B

Длина контекста

—

Модальности

—

Радар способностей

general

coding

reasoning

scienceоцен.

agents

multimodal

Science использует прокси на основе рассуждений, когда специализированные научные бенчмарки недоступны.

Рейтинги

Нет данных рейтинга

Оценки бенчмарков (LLM Stats)

Biology

GPQA

73.3%Сам.

Code

LiveCodeBench

50.0%Сам.

Math

MATH-500

95.9%Сам.

AIME 2024

86.7%Сам.

Индексы оценки AA

Нет данных AA оценки

Оценки категорий LLM Stats

Math

Reasoning

Physics

Biology

Chemistry

General

Code

Цены

Нет данных о ценах

Скорость

Нет данных о скорости

Рейтинг цен провайдеров

Нет данных провайдеров

Внешние ссылки

LLM Stats Artificial Analysis