认识拥有多重人格的人工智能代理

2025-04-16

新闻要点

未来智能体有望代人类承担更多事务，现易出错。Simular AI 新创 S2 智能体，结合前沿与专用模型，在多任务中表现出色，展现出结合多模型可补单模型局限的潜力，不过目前智能体仍存边缘问题，融入人类智能或为解决办法。

- S2 智能体结合模型在多任务上取得出色成绩

- OSWorld 基准测试人类完成任务比例超智能体

- CowPilot 插件实现人机协作完成更多任务

主要内容

未来几年，预计代理将越来越多地代表人类承担杂务，包括使用电脑和智能手机。然而，目前它们太容易出错，没什么用处。由初创公司 Simular AI 创造的新代理 S2，将前沿模型与专门用于使用电脑的模型相结合。该代理在使用应用程序和操作文件等任务上达到了最先进的性能，这表明在不同情况下使用不同模型可能有助于代理进步。Simular 的联合创始人兼首席执行官 Ang Li 表示：“使用电脑的代理不同于大型语言模型，也不同于编程。这是一个不同类型的问题。”
在 Simular 的方法中，像 OpenAI 的 GPT-4o 或 Anthropic 的 Claude 3.7 这样强大的通用 AI 模型用于推理如何最好地完成手头的任务，而较小的开源模型则用于解释网页等任务。Li 在 2023 年创立 Simular 之前是谷歌 DeepMind 的研究员，他解释说，大型语言模型擅长规划，但在识别图形用户界面的元素方面并不擅长。S2 旨在通过外部内存模块从经验中学习，该模块记录动作和用户反馈，并使用这些记录来改进未来的动作。在特别复杂的任务上，S2 在 OSWorld 上的表现优于其他任何模型，OSWorld 是衡量代理使用计算机操作系统能力的基准。例如，S2 可以完成涉及 50 步的任务的 34.5%，击败了可以完成 32%的 OpenAI 的 Operator。同样，S2 在 AndroidWorld 上的得分是 50%，这是智能手机使用代理的基准，而次佳代理的得分是 46%。
加拿大滑铁卢大学的计算机科学家 Victor Zhong 是 OSWorld 的创建者之一，他认为未来的大型 AI 模型可能会纳入训练数据，帮助它们理解视觉世界并理解图形用户界面。他说：“这将帮助代理以更高的精度导航 GUI。我认为在此期间，在这种根本性突破之前，最先进的系统将类似于 Simular，它们将结合多个模型来弥补单个模型的局限性。”
为了准备这篇专栏，我使用 Simular 预订航班和在亚马逊上寻找优惠，它似乎比我去年尝试的一些开源代理更好，包括 AutoGen 和 vimGPT。但似乎即使是最聪明的 AI 代理仍然受到边缘情况的困扰，偶尔会表现出奇怪的行为。有一次，当我让 S2 帮助找到 OSWorld 背后研究人员的联系信息时，该代理陷入了一个循环，在项目页面和 OSWorld 的 Discord 登录之间跳转。OSWorld 的基准测试表明了为什么代理目前仍然更多是炒作而不是现实。虽然人类可以完成 72%的 OSWorld 任务，但代理在复杂任务中失败的次数为 38%。也就是说，当该基准在 2024 年 4 月推出时，最佳代理只能完成 12%的任务。Zhong 表示，可用的训练数据量可能会限制代理的表现。也许一个解决方案是将人类智能加入其中。在研究 Simular 时，我发现了一个研究项目，该项目展示了将人类技能与 AI 代理的技能相结合的效果。卡内基梅隆大学的教授 Jeffrey Bigham 监督了该项目，该项目由他的学生 Faria Huq 开发，他说让人类与代理合作的想法“几乎是如此明显，以至于很难相信这不是大多数人正在考虑的方式。”最有趣的是，Bigham 和 Huq 表示，人类和代理一起工作可以执行比单独工作更多的任务。

认识拥有多重人格的人工智能代理

新闻要点

主要内容

关于我们