Open R1: Открытый пайплайн DeepSeek-R1
Главная задача проекта: восстановить недостающие части пайплайна DeepSeek-R1 и сделать его open-source.
Основные компоненты:
- src/open_r1: скрипты для обучения, оценки моделей и генерации синтетических данных
- Makefile: команды для каждого этапа пайплайна
План действий на основе публикации DeepSeek-R1:
- Репликация R1-Distill путем выделения высококачественного корпуса из DeepSeek-R1
- Воспроизведение чистого RL-пайплайна для R1-Zero. Вероятно, это будет включать в себя создание новых крупномасштабных датасетов для математики, рассуждений и кода.
- Демонстрация перехода от базовой модели к RL-настройке используя многоступенчатый процесс обучения.
Проект в процессе разработки - присоединяйтесь! 🤖🚀🫥Pipeline📖DeepSeek-R1 tech report