⚡Вышла новая китайская модель для генерации видео по тексту 可灵 (
или просто Kling)!Выпустила её
Kuaishou Technology — китайская компания, которая разрабатывает одноимённую платформу для коротких видео (и довольно популярна в Китае).
Как заявляют авторы:
👉 модель представляет собой
Diffusion Transformer (DiT), работающий в латентном пространстве закодированных видео (при этом при обучении DiT берутся видео разного разрешения и соотношения сторон);
👉 в качестве автоэнкодера видео используется специально обученный 3D VAE;
👉 модель может генерировать
Full HD видео (разрешение
1920 х 1080) длинной до
2 минут с частотой
30 кадров в секунду (время, за которое модель генерирует такое видео, авторы не уточняют); при этом
Sora за один проход умеет генерировать только минутное видео.
Как водится в последнее время, авторы Kling утверждают, что модель способна отлично имитировать физические характеристики реального мира и создавать видеоролики, соответствующие законам физики (что сейчас так или иначе является целью каждой команды, которая создает собственные text-to-video модели). Хотя всё ещё видны артефакты генерации (даже на представленных черри-пиках).
Концептуально в этом подходе к генерации видео нет ничего нового по сравнению с последними сравнимыми по качеству моделями такими как
Sora (OpenAI),
Vidu (Tsinghua University and ShengShu Technology),
Veo (DeepMind). Очень большую роль играют и значимо влияют на финальное качество:
👉 данные, на которых обучалась модель, их количество и, самое главное, качество (в случае Kling эта информация неизвестна - как и в случае большинства других моделей генерации видео);
👉 количество compute, затраченного на обучение (то есть фактически спецификация и размер кластера и время обучения); в частности, авторы Kling специально подчёркивают большую отдачу (с точки зрения финального качества модели) от масшабирования архитектуры и процесса оптимизации её обучения.
Модель Kling закрытая, есть только статья с примерами в блоге и ссылка на бета-тестирование (правда чтобы в нём поучаствовать, нужен китайский номер
😄)
@dendi_math_ai