OpenAI показали видео генератор
Sora.
Качество картинки не сравнимо лучше, чем у
Pika,
Runway, и
SVD. Про остальные варианты даже говорить нет смысла.
Модель умеет генерить из текста или изображения видео в высоком разрешении длинной в 1 минуту, может выдавать сложные сцены с несколькими персонажами, определенными типами движения и точной детализацией объекта и фона. Sora способна продолжать и уже существующие видосы. Также она понимает не только то, что пользователь запрашивает в подсказке, но и то, как эти вещи существуют в физическом мире.
Из примеров видно, что у Sora хорошее (пусть и не идеальное) понимание физики. Если в Runway на старте Gen-2 ты ощущал, что для модели все объекты в кадре словно вырезаны из бумаги и она просто двигает их по плоскости, не понимая пространство, то с Sora ты видишь, что она умеет в объём и осознаёт как объекты и их окружение должны перемещаться в кадре и взаимодействовать. Сюда же входит работа с освещением и отражениями.
Отдельно отмечу генерацию casual контента, типа съёмка с мобильной камеры вида из окна поезда. То, что у модели сходу реалистично получается такое выдавать это очень серьёзный показатель.
Когда релиз неизвестно.
Больше примеров
на странице анонса и в
твиттере Сэма, где он выборочно генерит промты, что люди ему пишут.