主要内容
Adobe 让我坐下,以一种平淡(即便有些枯燥)的旁白播放了一段简短的演示视频。没什么特别之处,但在调出文字记录、突出显示文本并从预设情感列表中选择后,声音表现完全改变了。从平淡变得自信,然后从自信变为低语,所有这些都在几秒钟内完成。Adobe 将其称为“纠正性 AI”,这是该公司今天在洛杉矶举行的更广泛的年度 MAX 创意大会期间的 MAX 秘密展示会上将演示的众多功能之一。(Adobe 支付了我参加其 MAX 大会的部分差旅费。)“秘密展示”是 Adobe 展示其正在研发的未来技术和原型的地方,许多这些功能最终会在几个月内融入 Adobe 的完整创意套件中。
今年的 MAX 大会上,Adobe 为 Firefly 发布了生成式语音,这不仅允许你使用几种预设声音,还可以添加情感标签来改变语调。这个“纠正性 AI”功能将该功能带入了更实用的工作流程。你不必使用完全由 AI 生成的声音,而是可以润色现有的声音表现。Adobe 的 Lee Brimelow 还向我展示了 AI 如何提取单个音轨的不同部分以创建多个音轨。这个名为“Project Clean Take”的秘密原型仅限于五条音轨,但它可以分离声音、环境噪音、音效等。AI 模型能够如此准确地分离音轨令人惊讶。例如,Adobe 向我展示了某人在吊桥前讲话,吊桥钟声完全掩盖了主持人的声音。运行 AI 模型后,钟声消失了。更好的是,Adobe 向我展示了如何通过单独调整这些分离音轨的级别将其找回。
在另一个例子中,Adobe 演示了在创作者在公共场合拍摄时,特别是当有授权音乐在背景中播放时,这是多么有用。众所周知,在 YouTube 等平台的自动化系统中,未经授权的音乐是快速获得版权打击的途径。在演示中,Adobe 的 AI 模型能够分离音乐,用 Adobe Stock 中的类似音轨替换它,并应用效果以赋予其原始音轨的混响和氛围,只需点击几下。
这些功能利用 AI 为视频编辑和创作者解决日常问题,帮助修复损坏的音频或节省重新录制声音表现的时间和麻烦。Adobe 还将在其“秘密展示”中展示新的生成式 AI 功能。对于声音设计师,该公司向我展示了其 AI 模型如何自动分析并为视频添加音效,所有这些它都声称是 AI 生成的,但在商业上可以安全使用。Adobe 的 Oriol Nieto 加载了一段带有几个场景和旁白但没有音效的短视频。AI 模型分析了视频并将其分解为场景,应用了情感标签和每个场景的描述。然后,音效出现了。例如,AI 模型识别出一个有闹钟的场景,并自动创建了一个音效。它识别出一个主角(在这种情况下是一只章鱼)在开车的场景,并添加了一个车门关闭的音效。但并不完美。闹钟声音不真实,在两个角色拥抱的场景中,AI 模型添加了一个不自然的衣服沙沙声,效果不佳。Adobe 不是手动编辑,而是使用对话界面(如 ChatGPT)来描述更改。在汽车场景中,没有汽车的环境声音。Adobe 不是手动选择场景,而是使用对话界面并要求 AI 模型为该场景添加汽车音效。它成功地找到了场景,生成了音效,并放置得恰到好处。这些实验性功能尚未可用,但它们通常会融入 Adobe 的套件中。
 
    