Смотреть в Telegram
Добрый день! Пятая часть разборы статьи про Llama 3.1. Тема: Direct Preference Oprimization: https://youtu.be/2_RDSMu61YQ Релевантные статьи Direct Preference Optimization: Your Language Model is Secretly a Reward Model Мы можем файн-тюнить модель на предпочтениях людей без модели наград и обучения с подкреплением, а просто за счет DPO-лосса. https://arxiv.org/abs/2305.18290 Iterative Reasoning Preference Optimization NLL-компонента для DPO-лосса. Улучшает) Плюс позволяет сохранять форматирующие токены (в отличие от ванильного DPO) https://arxiv.org/abs/2404.19733
Love Center - Dating, Friends & Matches, NY, LA, Dubai, Global
Love Center - Dating, Friends & Matches, NY, LA, Dubai, Global
Бот для знакомств