Смотреть в Telegram
Подход к обучению с подкреплением, который помогает студентам LLM лучше находить релевантную информацию. LeReT обучает LLM более эффективному поиску, пробуя разные запросы и извлекая уроки из результатов По сути, в статье говорится, что нужно пробовать разные способы поиска информации в Google — так вы научитесь! 🤖 Исходная задача: LLM часто галлюцинируют, отвечая на сложные вопросы, требующие поиска в нескольких источниках. Текущие методы поиска испытывают трудности с многоадресными запросами, когда информация должна собираться постепенно на нескольких этапах поиска. ----- 🔧 Решение в этой статье: → LeReT (Learning to Retrieve by Trying) — фреймворк обучения с подкреплением, который обучает LLM генерировать более эффективные поисковые запросы → Использует несколько независимо оптимизированных подсказок для создания разнообразных, но эффективных запросов → Преобразует вознаграждения за поиск в пары предпочтений для обучения → Применяет контекстную дистилляцию для устранения зависимости от подсказок → Использует оптимизацию политики идентификации (IPO) для обучения модели ----- 💡 Основные выводы: → Простая высокотемпературная выборка неэффективна для исследования поисковых запросов → Прямой надзор (отмеченные человеком соответствующие документы) работает лучше, чем косвенный надзор → Оперативная диверсификация имеет решающее значение для эффективной разведки → Итеративное обучение улучшает производительность в течение нескольких раундов ----- 📊 Результаты: → Абсолютная точность поиска повышается до 29% → 17% улучшение оценок нижестоящих генераторов → Последовательные результаты у разных ретриверов (ColBERTv2) и базовых моделей (Llama-8B, Gemma-9B) → Лучшая производительность с более мощными генераторами, такими как GPT-4
Telegram Center
Telegram Center
Канал