Всем привет!🔥Итоги встречи 15.11.2024(презентация|запись)
#RL #Memory #LLM #VLMНа встрече были разобраны новые работы по использованию механизмов памяти при принятии решений в контексте VLM и RL агентов
🔺 Optimus-1: Hybrid Multimodal Memory Empowered Agents Excel in Long-Horizon TasksВ данной работе рассматривается
VLM агент, решающий сложные задачи в среде
MinecraftАвторы считают, что существующие агенты сталкиваются с трудностями при выполнении long-horizon задач
в
open-world сеттинге в связи с тем, что
им не хватает знания о мире и его мультимодального описанияДля решения этих проблем авторы предлагают
Hybrid Multimodal Memory (
HMM) модуль, который:
✔️ преобразует знание в
Hierarchical Directed Knowledge Graph, позволяющий явно представить знание о мире и изучить его
✔️ суммаризует историческую информацию в
Abstracted Multimodal Experience Pool, который передает агентам дополнительную информацию для in-context обучения
Вместе с
Knowledge-Guided Planner и
Experience-Driven Reflector модулями, необходимыми для лучшего планирования и рефлексии агента для long-horizon задач, HMM образует мультимодального агента
Optimus-1Предложенный подход позволяет нивелировать различие между топовыми проприетарными и open-sourced VLM моделямями и достичь результатов, сравнимых с человеческими, при решении задач в Minecraft
🔺 AdaMemento: Adaptive Memory-Assisted Policy Optimization for Reinforcement Learning Механизмы памяти помогают оптимизировать стратегию в постановке задачи с разреженными функциями вознаграждения
AdaMemento — адаптивный memory-enhanced RL фреймворк, позволяющий решать такие задачи. Он состоит из
Memory-reflection module, позволяющего использовать как положительный, так и отрицательный опыт, обучаясь использовать локальные стратегии на основании текущих состояний, и
Coarse-fine distinction module, позволяющего эффективно собирать информативные траектории в память за счет
Fine-grained intrinsic-motivation paradigm, различающей небольшие различия (нюансы) в похожих состояниях
Использование данного подхода позволило получить существенно лучшие результаты по сравнению с другими бейзлайнами на такой тяжелой задаче как Atari/Montezuma's Revenge
🔺 Общие выводыВ обеих работах используются модули внешней памяти, позволяющие подкрепить принятие решения агента дополнительной информацией, что позволяет добиваться лучших результатов по сравнению с методами без таких модулей
Подписаться
⤵️
Embodied AI Reading Club