万2.1-VACE:面向大众的开源人工智能视频工具 - AI News
万2.1-VACE:面向大众的开源人工智能视频工具

万2.1-VACE:面向大众的开源人工智能视频工具

2025-05-15

新闻要点

Alibaba 推出开源 AI 视频工具 Wan2.1-VACE,号称首个为多种视频任务提供统一方案的开源模型。它功能强大,适用多领域,开源做法降低企业利用 AI 门槛。

- Wan2.1-VACE 为多种视频任务提供统一开源方案

- 支持多种输入生成及编辑视频,功能丰富

- 适用于社交媒体、影视后期等多领域

- 开源降低企业利用 AI 门槛

主要内容

阿里巴巴推出了 Wan2.1-VACE,这是一个开源的 AI 模型,旨在改变我们创建和编辑视频的方式。VACE 并非凭空出现,它是阿里巴巴更广泛的 Wan2.1 视频 AI 模型家族的一部分。阿里巴巴对其提出了一个相当大胆的主张,称其是“业内第一个为各种视频生成和编辑任务提供统一解决方案的开源模型”。如果阿里巴巴能够成功地将用户从使用多个独立工具转移到一个精简的中心,那可能会是一个真正的变革者。

那么,这个模型到底能做什么呢?首先,它可以根据各种提示生成视频,包括文本命令、静态图片,甚至其他视频片段的片段。但它不仅仅是从头制作视频。编辑工具包支持引用图像或特定帧来引导 AI,进行高级视频“重绘”(稍后会详细介绍),只调整现有视频的特定部分,甚至拉伸视频。阿里巴巴认为这些功能“实现了各种任务的灵活组合,以增强创造力”。

想象一下,你想创建一个有特定角色互动的视频,也许是基于你拥有的一些照片。VACE 声称能够做到这一点。有一张你希望是动态的静态图像?阿里巴巴的开源 AI 模型可以添加自然的运动使其生动起来。

对于那些喜欢微调的人,有我之前提到的高级“视频重绘”功能。这包括将姿势从一个主体转移到另一个主体、对运动进行精确控制、调整深度感知,甚至改变颜色。其中一个引起我注意的功能是它能够“支持在不影响周围环境的情况下,对视频的选择性特定区域进行添加、修改或删除”。这对于详细编辑来说是一个巨大的优势——当你只是试图调整一个小元素时,不再会意外地弄乱背景。此外,它可以使你的视频画布更大,并通过引用其他图像或提示自动添加相关内容,使一切看起来更丰富、更广阔。你可以将一张平面照片变成视频,并通过绘制路径来准确地告诉其中的物体如何移动。需要用你提供的参考替换一个角色或物体吗?没问题。让参考的角色动起来?可以做到。精确控制他们的姿势?没问题。

阿里巴巴甚至给出了一个例子,其开源 AI 模型将一张高而瘦的垂直图像巧妙地横向扩展为宽屏视频,通过引用其他图像或提示自动添加新的部分。这非常巧妙。

当然,VACE 并非魔法。其中涉及一些聪明的技术,旨在处理视频编辑中经常混乱的现实。一个关键部分是阿里巴巴称为视频条件单元(VCU)的东西,它“支持对文本、图像、视频和掩码等多模态输入进行统一处理”。还有他们所谓的“上下文适配器结构”。这个聪明的工程部分“使用时间和空间维度的形式化表示注入各种任务概念”。本质上,可以将其视为让 AI 很好地理解视频中的时间和空间。

凭借所有这些聪明的技术,阿里巴巴认为 VACE 在多个领域都会很受欢迎。例如快速的社交媒体剪辑、引人注目的广告和营销内容、电影和电视的重型后期制作特效,甚至用于生成定制的教育和培训视频。

阿里巴巴将 Wan2.1-VACE 开源,以传播 AI 的魅力。通常,构建如此强大的 AI 模型需要大量资金、计算能力和数据。因此,阿里巴巴将 Wan2.1-VACE 开源是一件大事。“开放访问有助于降低更多企业利用 AI 的门槛,使他们能够快速、经济高效地创建满足其需求的高质量视觉内容,”阿里巴巴解释道。