MAS: Multi-view Ancestral Sampling for 3D motion generation using 2D diffusion
Тут подвезли диффузию для генерации 3d motion любых персонажей (людей и животных), обучаясь только на 2D данных!
Качественных Mocap 3D данных движения людей и животных очень мало. Например, их почти нет для таких видов спорта как баскетбол или танцев, а уж тем более для животных. Причина тому — дороговизна и недобство сбора таких данных (нужно оборудование, нацеплять трекеры на тело и тд.). А генерировать 3D motion очень хочется - например для анимации, игр и VR.
В этой статье предлагается научить дифуузию генерить 2d траектории движения, а затем использовать эту сетку, чтобы генерить 2d проекции трехмерного моушена с разных камер. Чтобы проекции были консистентными предлагается дополнительной блок, который после каждого шага диффузии решает задачу оптимизации и находит ближайший 3D скелет, который лучше всего удовлетворяет всем проекциям, затем это решение опять проецируется на все камеры и кормится в следующий шаг дифуузии. В итоге на выходе имеет полноценный 3D моушен, хотя в тренировке модель никода не видела 3D!
Сайт проекта
Статья
@ai_newz