认识拥有多重人格的人工智能代理 - AI News
认识拥有多重人格的人工智能代理

认识拥有多重人格的人工智能代理

2025-04-16

新闻要点

未来智能体有望代人类承担更多事务,现易出错。Simular AI 新创 S2 智能体,结合前沿与专用模型,在多任务中表现出色,展现出结合多模型可补单模型局限的潜力,不过目前智能体仍存边缘问题,融入人类智能或为解决办法。

- S2 智能体 结合模型在多任务上取得出色成绩

- OSWorld 基准测试 人类完成任务比例超智能体

- CowPilot 插件 实现人机协作完成更多任务

主要内容

未来几年,预计代理将越来越多地代表人类承担杂务,包括使用电脑和智能手机。然而,目前它们太容易出错,没什么用处。由初创公司 Simular AI 创造的新代理 S2,将前沿模型与专门用于使用电脑的模型相结合。该代理在使用应用程序和操作文件等任务上达到了最先进的性能,这表明在不同情况下使用不同模型可能有助于代理进步。Simular 的联合创始人兼首席执行官 Ang Li 表示:“使用电脑的代理不同于大型语言模型,也不同于编程。这是一个不同类型的问题。”
在 Simular 的方法中,像 OpenAI 的 GPT-4o 或 Anthropic 的 Claude 3.7 这样强大的通用 AI 模型用于推理如何最好地完成手头的任务,而较小的开源模型则用于解释网页等任务。Li 在 2023 年创立 Simular 之前是谷歌 DeepMind 的研究员,他解释说,大型语言模型擅长规划,但在识别图形用户界面的元素方面并不擅长。S2 旨在通过外部内存模块从经验中学习,该模块记录动作和用户反馈,并使用这些记录来改进未来的动作。在特别复杂的任务上,S2 在 OSWorld 上的表现优于其他任何模型,OSWorld 是衡量代理使用计算机操作系统能力的基准。例如,S2 可以完成涉及 50 步的任务的 34.5%,击败了可以完成 32%的 OpenAI 的 Operator。同样,S2 在 AndroidWorld 上的得分是 50%,这是智能手机使用代理的基准,而次佳代理的得分是 46%。
加拿大滑铁卢大学的计算机科学家 Victor Zhong 是 OSWorld 的创建者之一,他认为未来的大型 AI 模型可能会纳入训练数据,帮助它们理解视觉世界并理解图形用户界面。他说:“这将帮助代理以更高的精度导航 GUI。我认为在此期间,在这种根本性突破之前,最先进的系统将类似于 Simular,它们将结合多个模型来弥补单个模型的局限性。”
为了准备这篇专栏,我使用 Simular 预订航班和在亚马逊上寻找优惠,它似乎比我去年尝试的一些开源代理更好,包括 AutoGen 和 vimGPT。但似乎即使是最聪明的 AI 代理仍然受到边缘情况的困扰,偶尔会表现出奇怪的行为。有一次,当我让 S2 帮助找到 OSWorld 背后研究人员的联系信息时,该代理陷入了一个循环,在项目页面和 OSWorld 的 Discord 登录之间跳转。OSWorld 的基准测试表明了为什么代理目前仍然更多是炒作而不是现实。虽然人类可以完成 72%的 OSWorld 任务,但代理在复杂任务中失败的次数为 38%。也就是说,当该基准在 2024 年 4 月推出时,最佳代理只能完成 12%的任务。Zhong 表示,可用的训练数据量可能会限制代理的表现。也许一个解决方案是将人类智能加入其中。在研究 Simular 时,我发现了一个研究项目,该项目展示了将人类技能与 AI 代理的技能相结合的效果。卡内基梅隆大学的教授 Jeffrey Bigham 监督了该项目,该项目由他的学生 Faria Huq 开发,他说让人类与代理合作的想法“几乎是如此明显,以至于很难相信这不是大多数人正在考虑的方式。”最有趣的是,Bigham 和 Huq 表示,人类和代理一起工作可以执行比单独工作更多的任务。