Смотреть в Telegram
Forwarded from NLP Wanderer
Preference Optimization 28_10_2024.pdf
2 MB
🎆 Небольшая лекция об Alignment и как мы его готовим Это слайды с текстом, пока устно ее я рассказывал только внутри команды Vikhr. Внутри вы узнаете: - Теория Bradley-Terry и откуда берутся Reward модели - Что нужно для обучения Reward модели и как его делаем мы - Откуда взялся DPO и каковы его недостатки - Какова мотивация нас и других авторов улучшать DPO - Как устроен наш функционал SMPO - Simple Margin Preference Optimization - Какие есть способы улучшения DPO на уровне данных и как готовим эти данные мы Задавайте вопросы в комментариях, если что-то непонятно, будем обсуждать.
Please open Telegram to view this post
VIEW IN TELEGRAM
Love Center - Dating, Friends & Matches, NY, LA, Dubai, Global
Love Center - Dating, Friends & Matches, NY, LA, Dubai, Global
Бот для знакомств