🎆 Небольшая лекция об Alignment и как мы его готовим / алиса олеговна / Telegram Center

Preference Optimization 28_10_2024.pdf

🎆

Небольшая лекция об Alignment и как мы его готовим Это слайды с текстом, пока устно ее я рассказывал только внутри команды Vikhr. Внутри вы узнаете: - Теория Bradley-Terry и откуда берутся Reward модели - Что нужно для обучения Reward модели и как его делаем мы - Откуда взялся DPO и каковы его недостатки - Какова мотивация нас и других авторов улучшать DPO - Как устроен наш функционал SMPO - Simple Margin Preference Optimization - Какие есть способы улучшения DPO на уровне данных и как готовим эти данные мы Задавайте вопросы в комментариях, если что-то непонятно, будем обсуждать.

Please open Telegram to view this post

VIEW IN TELEGRAM

https://t.center/alisaolega/269

327 viewsNov 16 at 12:28

Love Center - Dating, Friends & Matches, NY, LA, Dubai, Global

Бот для знакомств