主要内容
伦敦的 AI 实验室奥德赛推出了将视频转换为互动世界的模型研究预览。起初专注于电影和游戏制作的世界模型,奥德赛团队偶然发现了一种全新的潜在娱乐媒介。奥德赛的 AI 模型生成的互动视频可实时响应输入。你可以使用键盘、手机、控制器,甚至最终通过语音命令与它交互。奥德赛的团队将其称为“全息甲板的早期版本”。底层 AI 每 40 毫秒可生成逼真的视频帧。这意味着当你按下按钮或做出手势时,视频几乎立即响应——营造出你实际上在影响这个数字世界的错觉。奥德赛称:“如今的体验就像在探索一个有故障的梦——原始、不稳定,但无疑是全新的。”这里我们说的不是打磨过的、AAA 级游戏质量的视觉效果,至少目前还不是。
从技术角度来看,这种 AI 生成的互动视频技术与标准视频游戏或 CGI 有何不同?这都归结于奥德赛所称的“世界模型”。与一次生成整个剪辑的传统视频模型不同,世界模型逐帧工作,根据当前状态和任何用户输入预测接下来会发生什么。这类似于大型语言模型预测序列中的下一个单词,但要复杂得多,因为我们谈论的是高分辨率视频帧而不是单词。奥德赛称:“世界模型的核心是一个受动作条件约束的动力学模型。”每次你进行交互时,模型都会获取当前状态、你的动作和发生的历史,然后相应地生成下一个视频帧。结果是感觉比传统游戏更具有机性和不可预测性。没有预先编程的逻辑说“如果玩家做 X,那么 Y 发生”——相反,AI 根据从观看无数视频中学到的内容,对接下来应该发生的事情做出最佳猜测。
构建这样的东西并非易事。AI 生成互动视频的最大障碍之一是使其在时间上保持稳定。当你根据之前的帧生成每个帧时,小错误会迅速累积(这是 AI 研究人员所称的“漂移”)。为了解决这个问题,奥德赛使用了他们所称的“窄分布模型”——基本上是在通用视频素材上预先训练他们的 AI,然后在较小的环境集合上进行微调。这种权衡意味着多样性较少,但稳定性更好,以免一切变得怪异。该公司表示,他们在下一代模型上已经取得了“快速进展”,该模型显然显示出“更丰富的像素范围、动态和动作”。实时运行所有这些精美的 AI 技术并不便宜。目前,为这种体验提供动力的基础设施每个用户小时的成本在 0.80-1.60 英镑(1-2 美元)之间,依赖于分布在美国和欧盟的 H100 GPU 集群。对于流媒体视频来说,这可能听起来很昂贵,但与制作传统游戏或电影内容相比,它非常便宜。奥德赛预计随着模型变得更高效,这些成本将进一步下降。
互动视频:下一个讲故事的媒介?在历史上,新技术催生了新的讲故事形式——从洞穴壁画到书籍、摄影、广播、电影和视频游戏。奥德赛认为 AI 生成的互动视频是这一演变的下一步。如果他们是正确的,我们可能正在看到将改变娱乐、教育、广告等领域的东西的原型。想象一下在培训视频中你可以练习所教授的技能,或者在沙发上探索目的地的旅行体验。现在可用的研究预览显然只是迈向这一目标的一小步。