Добрый день!
Пятая часть разборы статьи про Llama 3.1. Тема: Direct Preference Oprimization:
https://youtu.be/2_RDSMu61YQ
Релевантные статьи
Direct Preference Optimization: Your Language Model is Secretly a Reward Model
Мы можем файн-тюнить модель на предпочтениях людей без модели наград и обучения с подкреплением, а просто за счет DPO-лосса.
https://arxiv.org/abs/2305.18290
Iterative Reasoning Preference Optimization
NLL-компонента для DPO-лосса. Улучшает) Плюс позволяет сохранять форматирующие токены (в отличие от ванильного DPO)
https://arxiv.org/abs/2404.19733