人工智能智能体是糟糕的自由职业者

2025-10-29

新闻要点

实验表明即便最佳人工智能代理做线上自由职业工作也表现不佳，挑战AI将大量取代办公人员的观点。数据标注公司Scale AI和非营利组织CAIS开发新基准测试前沿AI模型自动执行经济上有价值工作的能力。此研究为AI对就业影响提供新视角。

- 新基准测AI自由职业能力最佳者完成不到3%工作

- 研究列举较有能力AI工具包括Manus、Grok等

- 新基准与OpenAI的GDPval形成对比

- Amazon部分因AI崛起裁员 14,000 人

主要内容

一项实验表明，即使是最优秀的人工智能代理在在线自由职业工作方面也相当无能，这挑战了人工智能将大规模取代办公室工作人员的观点。数据标注公司 Scale AI 和非营利组织人工智能安全中心（CAIS）的研究人员开发的新基准“远程劳动指数”，衡量了前沿人工智能模型实现经济价值工作自动化的能力。研究人员给几个领先的人工智能代理分配了一系列模拟自由职业工作，发现即使是最好的也只能完成不到 3%的工作，在 143,991 美元的可能收入中仅赚取 1,810 美元。研究人员考察了几种工具，发现最有能力的是同名中国初创公司的 Manus，其次是 xAI 的 Grok、Anthropic 的 Claude、OpenAI 的 ChatGPT 和 Google 的 Gemini。CAIS 主任 Dan Hendrycks 表示，他希望这能更准确地反映人工智能能力的现状。他补充说，虽然一些代理在过去一年左右有了显著改进，但这并不意味着这种改进将以同样的速度持续。
惊人的人工智能进步引发了关于人工智能即将超越人类智能并取代大量工人的猜测。今年 3 月，Anthropic 首席执行官 Dario Amodei 表示，90%的编码工作将在几个月内实现自动化。以前的人工智能浪潮引发了关于工作岗位流失的错误预测，例如关于人工智能算法即将取代放射科医生的预测。研究人员通过经过验证的 Upwork 工人生成了一系列自由职业任务，任务涵盖了图形设计、视频编辑、游戏开发和数据抓取等行政杂务。他们将每项工作的描述与完成工作所需的文件目录以及人类完成的一个项目示例相结合。Hendrycks 表示，虽然人工智能模型近年来在编码、数学和逻辑推理方面有所改进，但它们仍然难以使用不同的工具和执行涉及多个步骤的复杂任务。“它们没有长期存储记忆，无法从经验中持续学习。它们不能像人类一样在工作中掌握技能。”他说。
该分析与 OpenAI 9 月提供的经济工作基准“GDPval”形成了对比，“GDPval”声称要衡量经济价值工作。根据“GDPval”，GPT-5 等前沿人工智能模型在一系列办公室工作的 220 项任务中接近人类能力。OpenAI 未提供评论。Scale AI 研究主任 Bing Liu 补充说，我们多年来一直在讨论人工智能和工作，但大多数都是假设或理论性的。Liu 和 Hendrycks承认，新的基准并不是衡量人工智能经济影响的完美标准。许多职业包括该措施未涵盖的任务。实际上，许多自由职业者也可能以一种提高生产力的方式使用人工智能作为工具。然而，人工智能已经在夺走工作的观点正在增强。本周，亚马逊宣布将裁员 14,000 人，部分原因是生成式人工智能的迅速崛起。亚马逊人员体验和技术高级副总裁 Beth Galetti 在一份公开分享的备忘录中写道：“这一代人工智能是我们自互联网以来看到的最具变革性的技术。它使公司能够比以往任何时候都更快地创新（在现有市场领域和全新领域）。”然而，如果“远程劳动指数”有任何指示，人工智能不太可能取代任何这些空缺的岗位。你担心人工智能会夺走你的工作吗？请通过发送电子邮件至 ailab@wired.com 告诉我。这是 Will Knight 的 AI Lab 时事通讯的一期。在此阅读以前的时事通讯。

人工智能智能体是糟糕的自由职业者

新闻要点

主要内容

关于我们