Риалтайм предсказание положения тела по одной ego-камере😨
Одна из главных проблем всех этих ваших виаров и эйаров заключается в том, что нужно раскидать камеры по всей комнате для трекинга положения тела. Я тоже решал эту проблему, когда работал в Reality Labs - мы предложили
диффузионную модель AGRoL, которая по трекингу рук и головы синтезирует движение всего тела в 3D. Теперь зацените свежачок от интернов из Meta Reality Labs.
Тут пошли еще дальше и используют
только одну RGB камеру на голове (которая итак стоит во всех VR/AR очках), они смогли в реальном времени
(70FPS на A100) с задержкой всего
0.17 секунд отследить положение всех конечностей,
даже если они не попадают в кадр.
Ребята решили взять максимум из того, что есть: они скормили диффузионке данные о положении головы, цветную картинку и набор SLAM-точек (думайте об этом как о
гауссовских сплатах на минималках). Кроме того, добавили
CLIP-эмбеддинг для извлечения семантической информации (что находится в кадре). Всё это обучили на
200 часах видеоконтента с данными от motion capture костюма для захвата движений.
В результате получилась модель, которая не только лучше предшественнико
в, но и работает супербыстро, что позволяет использовать её для
онлайн-процессинга. Правда, пока SLAM работает только в статике — если, например, передвинуть стол, модель этого не заметит.
Очевидно, бенефициар этой технологии — это AR и VR. Игрушки выйдут топовые, хоть на поле 100 на 100 игроков устраивай, как это показывал
Snapchat на последней презентации своих очков. Нужно только рядом кластер с хотябы 1xA100 на человека поставить
😁.
Помимо игр, технология пригодилась бы в робототехнике, в частности, для обучения робогуманоидов нормально ходить и ориентироваться в пространстве. Такие данные сложно получить сразу в большом объёме, поэтому сейчас, например, используют imitation learning, как в этом посте про
живую сталь.
Пейпер
Код (скоро)
Project page
@ai_newz