Добрый день! / razinkov.ai / Telegram Center

Добрый день! Пятая часть разборы статьи про Llama 3.1. Тема: Direct Preference Oprimization: https://youtu.be/2_RDSMu61YQ Релевантные статьи Direct Preference Optimization: Your Language Model is Secretly a Reward Model Мы можем файн-тюнить модель на предпочтениях людей без модели наград и обучения с подкреплением, а просто за счет DPO-лосса. https://arxiv.org/abs/2305.18290 Iterative Reasoning Preference Optimization NLL-компонента для DPO-лосса. Улучшает) Плюс позволяет сохранять форматирующие токены (в отличие от ванильного DPO) https://arxiv.org/abs/2404.19733

YouTube

Llama 3.1: разбор статьи. Часть 5. DPO.

Разбираем статью "The Llama 3 Herd of Models" (2024) со слушателями нашей AI-школы, раздел 4.1.4 Direct Preference Optimization.

Таймкоды:
00:00 Приветствие
01:37 Direct Preference Optimization

Плейлист с разбором Llama 3.1:
https://www.youtube.com/playlist?list=PL6…

https://t.center/razinkov_ai/643

2.5K viewsSep 5 at 09:11

Love Center - Dating, Friends & Matches, NY, LA, Dubai, Global

Find friends or serious relationships easily