Stability выпустили image-2-video модель для генерации видео —
Stable Video Diffusion.
Она работает на базе весов SD v2.1 и имеет две версии:
SVD и
SVD-XT. Первая генерирует 14 кадров в разрешении 576x1024, а вторая - 25 кадров того же размера. FPS можно задать от 3 к/с до 30 к/с.
По качеству картинки утверждают, что они лучше
Pika и
Runway. Аргумент, как и их бенчмарк, спорный. Но мне удалось
потестить демо и результат весьма годный. Например, когда я пару дней назад игрался с Runway она на основе той же картинки с котом хорошо понимала слой с городом и могла его расширить при движении камеры, а вот кота она не могла распознать и его сильно меняло в кадре. В то же время сейчас в SVD кот остался целым и камера сместилась, показывая нам и то, что было не видно за ним (пусть и с огрехами) и новое пространство слева.
Качество это хорошо, но намного важнее, что народ прицепит к этому всему контроль кадра через СontrolNet или что ещё. А там и натренируют на 4к, сделают связки с моделями для генерации
дипфейков +
голоса +
липсинка, итд.
Можно использовать SVD и для генерации новых углов обзора объекта, что потенциально можно примостить к созданию 3D.
Также Stability готовят веб-интерфейс для работы в режиме text-2-video (запись в
вейтлист здесь). Тем временем можете поиграться с генератором видео по тексту
Hotshot, который работает на основе SDXL.
Будем надеяться модель не постигнет участь
Stable Animation, которой буквально считай никто не воспользовался.
Демо
Анонс
Гитхаб
Хаггинг