Подход к обучению с подкреплением, который помогает студентам LLM лучше находить релевантную информацию.
LeReT обучает LLM более эффективному поиску, пробуя разные запросы и извлекая уроки из результатов
По сути, в статье говорится, что нужно пробовать разные способы поиска информации в Google — так вы научитесь!
🤖 Исходная задача:
LLM часто галлюцинируют, отвечая на сложные вопросы, требующие поиска в нескольких источниках. Текущие методы поиска испытывают трудности с многоадресными запросами, когда информация должна собираться постепенно на нескольких этапах поиска.
-----
🔧 Решение в этой статье:
→ LeReT (Learning to Retrieve by Trying) — фреймворк обучения с подкреплением, который обучает LLM генерировать более эффективные поисковые запросы
→ Использует несколько независимо оптимизированных подсказок для создания разнообразных, но эффективных запросов
→ Преобразует вознаграждения за поиск в пары предпочтений для обучения
→ Применяет контекстную дистилляцию для устранения зависимости от подсказок
→ Использует оптимизацию политики идентификации (IPO) для обучения модели
-----
💡 Основные выводы:
→ Простая высокотемпературная выборка неэффективна для исследования поисковых запросов
→ Прямой надзор (отмеченные человеком соответствующие документы) работает лучше, чем косвенный надзор
→ Оперативная диверсификация имеет решающее значение для эффективной разведки
→ Итеративное обучение улучшает производительность в течение нескольких раундов
-----
📊 Результаты:
→ Абсолютная точность поиска повышается до 29%
→ 17% улучшение оценок нижестоящих генераторов
→ Последовательные результаты у разных ретриверов (ColBERTv2) и базовых моделей (Llama-8B, Gemma-9B)
→ Лучшая производительность с более мощными генераторами, такими как GPT-4