Посмотрите как робот чуть больше часа учится играть в дженгу хлыстом полностью в реальной жизни, без всяких симуляций. По-моему результаты под конец впечатляющие. Настолько быстро учиться выходит из-за того что человеческие демонстрации и исправление ошибок встроено прямо в RL пайплайн.
Кроме дженги подход работает на куче других задач, например разные этапы сборки ПК и мебели, на обучение уходит до двух с половиной часов.
Сайт проекта@ai_newz