人工智能模型将视频转化为交互式世界

2025-05-29

新闻要点

伦敦AI实验室Odyssey推出模型将视频转化为交互式世界，其生成的视频能实时响应输入或成新娱乐媒介。

- Odyssey团队推出将视频转化为交互式世界的AI模型

- 模型每40毫秒生成逼真视频帧实时响应交互

- 用“窄分布模型”解决稳定性问题降低成本

- 交互式视频或成新叙事媒介应用前景广

主要内容

伦敦的 AI 实验室奥德赛推出了将视频转换为互动世界的模型研究预览。起初专注于电影和游戏制作的世界模型，奥德赛团队偶然发现了一种全新的潜在娱乐媒介。奥德赛的 AI 模型生成的互动视频可实时响应输入。你可以使用键盘、手机、控制器，甚至最终通过语音命令与它交互。奥德赛的团队将其称为“全息甲板的早期版本”。底层 AI 每 40 毫秒可生成逼真的视频帧。这意味着当你按下按钮或做出手势时，视频几乎立即响应——营造出你实际上在影响这个数字世界的错觉。奥德赛称：“如今的体验就像在探索一个有故障的梦——原始、不稳定，但无疑是全新的。”这里我们说的不是打磨过的、AAA 级游戏质量的视觉效果，至少目前还不是。

从技术角度来看，这种 AI 生成的互动视频技术与标准视频游戏或 CGI 有何不同？这都归结于奥德赛所称的“世界模型”。与一次生成整个剪辑的传统视频模型不同，世界模型逐帧工作，根据当前状态和任何用户输入预测接下来会发生什么。这类似于大型语言模型预测序列中的下一个单词，但要复杂得多，因为我们谈论的是高分辨率视频帧而不是单词。奥德赛称：“世界模型的核心是一个受动作条件约束的动力学模型。”每次你进行交互时，模型都会获取当前状态、你的动作和发生的历史，然后相应地生成下一个视频帧。结果是感觉比传统游戏更具有机性和不可预测性。没有预先编程的逻辑说“如果玩家做 X，那么 Y 发生”——相反，AI 根据从观看无数视频中学到的内容，对接下来应该发生的事情做出最佳猜测。

构建这样的东西并非易事。AI 生成互动视频的最大障碍之一是使其在时间上保持稳定。当你根据之前的帧生成每个帧时，小错误会迅速累积（这是 AI 研究人员所称的“漂移”）。为了解决这个问题，奥德赛使用了他们所称的“窄分布模型”——基本上是在通用视频素材上预先训练他们的 AI，然后在较小的环境集合上进行微调。这种权衡意味着多样性较少，但稳定性更好，以免一切变得怪异。该公司表示，他们在下一代模型上已经取得了“快速进展”，该模型显然显示出“更丰富的像素范围、动态和动作”。实时运行所有这些精美的 AI 技术并不便宜。目前，为这种体验提供动力的基础设施每个用户小时的成本在 0.80-1.60 英镑（1-2 美元）之间，依赖于分布在美国和欧盟的 H100 GPU 集群。对于流媒体视频来说，这可能听起来很昂贵，但与制作传统游戏或电影内容相比，它非常便宜。奥德赛预计随着模型变得更高效，这些成本将进一步下降。

互动视频：下一个讲故事的媒介？在历史上，新技术催生了新的讲故事形式——从洞穴壁画到书籍、摄影、广播、电影和视频游戏。奥德赛认为 AI 生成的互动视频是这一演变的下一步。如果他们是正确的，我们可能正在看到将改变娱乐、教育、广告等领域的东西的原型。想象一下在培训视频中你可以练习所教授的技能，或者在沙发上探索目的地的旅行体验。现在可用的研究预览显然只是迈向这一目标的一小步。

人工智能模型将视频转化为交互式世界

新闻要点

主要内容

关于我们