Не дожидаясь следующих больших конференций, в которых мы будем участвовать, буду время от времени отмечать интересные статьи, по большей части, которые пришли с последних обновлений ArXiv и отфильтрованные для меня настроенным сервисом
scholar inbox (кстати, всем рекомендую - покрытие не полное, но что-то интересное до вас доберется рано или поздно и по-других каналам
😆). Итак, вот пара работ в этот #digest:
1) FAST: Efficient Action Tokenization for Vision-Language-Action Models -
https://arxiv.org/abs/2501.09747. Коллеги из
свежего стартапа
Physical Intelligence озаботились правильной проблемой токенизации действий, которые подаются или генерируются VLA моделью. Они придумали простую трансформацию для компресии токенов и смогли улучшить работу авторегрессионных моделей на довольно сложных задачах из прачечной
🧺 и обычных бытовых ситуаций.
2) RoboHorizon: An LLM-Assisted Multi-View World Model for Long-Horizon Robotic Manipulation -
https://arxiv.org/abs/2501.06605. В продожение темы манипуляции китайские коллег из Nanjing University придумали новый пайплайн Recognize-Sense-Plan-Act для обучения полноценной модели мира RoboHorizon. Ключевым момент служит генерация плотного вознаграждения и представление состояний с нескольких точек обзора. Им удалось улучшить результаты в RLBench на задачах с длинным горизонтом планирования, которые более требовательных к памяти для генерации действий
🦾.