«Киношная» нейросеть от Meta может не только генерировать видео, но и озвучивать их
Модель
MovieGen способна по текстовой подсказке генерировать реалистичные и детализированные клипы в разрешении 1080p продолжительностью до 16 секунд.
MovieGen может создавать не только видеоконтент, но и аудиоряд к нему, а также позволяет редактировать готовое видео — также по промпту. У пользователя также есть возможность редактировать и лишь небольшие детали в клипе, а не всю картинку целиком.
Еще одна фишка MovieGen в том, что при создании видео она может работать с пользовательским фото в качестве референса. То есть нейросеть способна интегрировать в видео персонажа, созданного на основе фотографии.
Разработчики называют модель своей самой большой моделью для генерации видео. Модель-трансформер обладает 30 млрд параметров.
За генерацию звукового сопровождения отвечает отдельная нейросеть (MovieGen Audio) на 13 млрд параметров, которая генерирует аудиоконтент в высоком качестве продолжительностью до 45 секунд. Сгенерированная аудиодорожка автоматически синхронизируется с видео. Голос для персонажей сгенерировать нельзя.
Разработчики утверждают, что MovieGen превосходит по качеству видеогенераций таких конкурентов, как Runway Gen-3, LumaLabs и даже еще не вышедшую Sora от OpenAI.
При этом разработчики слегка лукавят, когда говорят о генерации видео в разрешении 1080p. На самом деле MovieGen
генерирует клип в меньшем разрешении, а затем апскейлит его. Еще одна хитрость — клипы с максимальной продолжительностью 16 секунд будут обладать достаточно низкой частотой смены кадров, всего 16 fps. Чтобы получать более качественные 24 fps придется ограничиться 10-секундным клипом.
Как это часто бывает с моделями Meta, MovieGen не будет доступен для широкой публики.
*Организация, запрещенная на территории РФ