新星法案:迈向更智能的原生网络人工智能体的一步 - AI News
新星法案:迈向更智能的原生网络人工智能体的一步

新星法案:迈向更智能的原生网络人工智能体的一步

2025-04-01

新闻要点

亚马逊推出Nova Act ,用于打造能在浏览器执行任务的智能代理。它定义新代理概念,发布SDK突破局限,性能佳且适应性强,在多基准测试表现出色,还能应用于多种场景,是迈向可靠智能AI的重要一步。

- Amazon推出Nova Act助力智能AI代理发展

- Nova Act SDK可创建自动化执行网络任务的智能代理

- Nova Act在多项基准测试中展现优异性能

- Nova Act适应性强,应用于多种场景

主要内容

亚马逊推出了 Nova Act,这是一种专为更智能的智能体设计的先进 AI 模型,可在网络浏览器中执行任务。大型语言模型普及了“智能体”的概念,将其作为通过检索增强生成(RAG)等方法回答查询或检索信息的工具,而亚马逊设想的更强大。该公司将智能体定义为不仅是响应者,还是能够在不同的数字和物理环境中执行实际的多步任务的实体。亚马逊表示:“我们的梦想是让智能体执行广泛、复杂、多步的任务,如组织婚礼或处理复杂的 IT 任务,以提高业务效率。”

当前市场产品往往不足,许多智能体需要持续的人工监督,其功能依赖于全面的 API 集成——这对于所有任务来说都不可行。Nova Act 是亚马逊对这些限制的回应。随着该模型的推出,亚马逊发布了 Amazon Nova Act SDK 的研究预览。使用该 SDK,开发人员可以创建能够自动化网络任务的智能体,如提交外出通知、安排日历保留或启用自动电子邮件回复。

SDK 旨在将复杂的工作流程分解为可靠的“原子命令”,如搜索、结账或与下拉菜单或弹出窗口等特定界面元素进行交互。可以添加详细的指令来细化这些命令,例如指示智能体在结账时绕过保险推销。为了进一步提高准确性,SDK 支持通过 Playwright 进行浏览器操作、API 调用、Python 集成和并行线程,以克服网页加载延迟。

Nova Act:在基准测试中的卓越性能
与其他在复杂任务上表现中等准确性的生成模型不同,Nova Act 优先考虑可靠性。亚马逊强调其模型在内部评估中特定能力的令人印象深刻的得分超过 90%,这些能力通常对竞争对手构成挑战。在 ScreenSpot Web Text 基准测试中,Nova Act 达到了近乎完美的 0.939,该测试衡量基于自然语言的文本交互指令,如调整字体大小。竞争对手模型如 Claude 3.7 Sonnet(0.900)和 OpenAI 的 CUA(0.883)远远落后。

同样,在 ScreenSpot Web Icon 基准测试中,Nova Act 得分 0.879,该测试测试与评分星或图标等视觉元素的交互。虽然 GroundUI Web 测试旨在评估 AI 在导航各种用户界面元素方面的熟练程度,但 Nova Act 在该测试中略落后于竞争对手,亚马逊认为这是随着模型的发展而有待改进的领域。

亚马逊强调其专注于提供实际的可靠性。一旦使用 Nova Act 构建的智能体按预期运行,开发人员可以无头部署它、将其集成为 API,甚至安排它异步运行任务。在一个演示用例中,一个智能体每周二晚上自动订购沙拉外卖,无需持续的用户干预。

亚马逊阐述了其对可扩展和智能 AI 智能体的愿景
Nova Act 的突出特点之一是其能够以最小的额外训练将其用户界面理解转移到新环境中。亚马逊分享了一个实例,其中 Nova Act 在基于浏览器的游戏中表现出色,尽管其训练未包括视频游戏体验。这种适应性使其成为适用于各种应用的通用智能体。

这一能力已经在亚马逊自己的生态系统中得到利用。在 Alexa+中,Nova Act 使自我导向的网络导航能够为用户完成任务,即使 API 访问不够全面。这代表了朝着更智能的 AI 助手迈出的一步,这些助手可以独立运行,以更动态的方式利用其技能。

亚马逊明确表示,Nova Act 代表了构建智能、可靠 AI 的更广泛使命的第一阶段。