世界模型 Genie 2: A large-scale foundation world model - Google DeepMind
Genie 2 是一个
世界模型,它可以模拟虚拟 3D 世界任何行动(如跳跃、游泳等)的后果。作为 Autoregressive Latent Diffusion Model 在大规模视频数据集上进行了训练,展示了各种如物体交互、效果动画、物理规律,以及模拟预测 NPC 等能力。
下文 Link 包括与 Genie 2 交互的示例视频。目前模型使用 Imagen 3 生成单张图像作为提示。未来任何人都可用文字描述想要的世界,然后进入并与新世界交互。在每一步中,人或代理
通过键盘和鼠标提供动作,Genie 2 就会模拟下一个观察结果。目前 Genie 2 可以生成长达一分钟的一致世界,大多数示例持续时间为10-20秒。
https://deepmind.google/discover/blog/genie-2-a-large-scale-foundation-world-model/#AI