⚡️Экс-сотрудники Google создали первый "GPT для роботов" - теперь они могут понимать человеческие команды и ловко выполнять бытовые задачи.
Экс-сотрудники Google, создавшие компанию Physical Intelligence (π.com!) сделали большой прорыв в области робототехники и ИИ - модель π0 (пи-ноль).
Несмотря на впечатляющие достижения ИИ в таких областях как игра в шахматы или генерация изображений, роботы до сих пор значительно уступают людям в выполнении простых физических задач:
- Сложно научить робота складывать одежду или убирать со стола - это требует решения сложнейших инженерных задач
- Современные роботы узкоспециализированы и могут выполнять только заранее запрограммированные повторяющиеся действия
Что такое π0?
- Это универсальная базовая модель для роботов
- Может управлять различными типами роботов
- Понимает текстовые инструкции
- Работает с изображениями, текстом и физическими действиями
- Обучена на разнообразном наборе данных от 8 различных роботов
Ключевые возможности:
- Модель использует предварительное обучение на основе интернет-данных (как языковые модели)
- Имеет новую архитектуру, позволяющую выдавать команды управления с частотой до 50 раз в секунду
- Может быть дообучена для специализированных задач
- Наследует семантическое понимание из предварительного обучения на интернет-данных
Модель успешно справляется со сложными задачами:
- Складывание белья (включая извлечение из сушилки и аккуратное складывание в стопку)
- Уборка со стола (сортировка посуды и мусора)
- Сборка картонных коробок
- Может адаптироваться к неожиданным ситуациям и вмешательству человека
- Превосходит другие модели (OpenVLA и Octo) в тестовых заданиях;
- Показывает в 2 раза лучшие результаты по сравнению с уменьшенной версией модели
- Может выполнять более сложные многоэтапные задачи, в то время как предыдущие модели ограничивались простыми одноэтапными действиями
Это только первый шаг к созданию по-настоящему универсальных роботов.
Эта работа важна тем, что может привести к появлению роботов, которые смогут выполнять разнообразные задачи в реальном мире, просто получая инструкции на естественном языке, подобно тому, как сейчас работают языковые модели.