На днях вышла интересная
работа про учёт физики в генеративных text-to-video моделях и вообще возможности называть такие модели «моделями мира». Авторы показывают, что на исключительно на большом объёме наблюдений выучить закономерность модели не могут. Проверяют на законе сохранении энергии, законе инерции и 2м законе Ньютона в задачах на плоскости. Занимательные эксперименты и даже есть код для воспроизведения)
В целом, вопрос достаточно дискуссионный, и я планирую сделать мини обзор подходов к этой задаче в ближайшее время, потому что синтез видео в задачах аугментации или «расширения обзора» полезно и нужно в ряде направлений, особенно в робототехнике и беспилотном автотехе.