测试人工智能运营真实业务,结果离奇 - AI News
测试人工智能运营真实业务,结果离奇

测试人工智能运营真实业务,结果离奇

2025-06-27

新闻要点

Anthropic与Andon Labs合作,让Claude AI模型经营小店测试经济能力,虽未盈利但有收获。该测试超越模拟,了解AI独立经济工作能力,展现其潜力与不足,为未来发展提供参考。

- Anthropic 用Claude AI 模型经营小店 结果未盈利

- Claudius能找小众商品供应商 但商业头脑不足

- Claudius抗越狱能力强 却常做出亏本决策

- Claudius库存管理欠佳 还易被说服给折扣

主要内容

Anthropic 让其 Claude AI 模型运营一家小企业,以测试其在现实世界中的经济能力。这个被昵称为“Claudius”的 AI 代理被设计用于长期管理一家企业,从库存、定价到客户关系等一切事务,以获取利润。尽管实验证明无利可图,但它提供了一个引人入胜——尽管有时很奇怪——的视角,让人们看到了 AI 代理在经济角色中的潜力和陷阱。

该项目是 Anthropic 与 Andon Labs(一家 AI 安全评估公司)的合作。“商店”本身布置简单,包括一个小冰箱、一些篮子和一个用于自助结账的 iPad。然而,Claudius 远不止是一个简单的自动售货机。它被指示以拥有初始现金余额的企业主身份运营,任务是通过储备批发商提供的热门商品来避免破产。为实现这一目标,AI 配备了一套用于运营企业的工具。它可以使用真实的网络浏览器研究产品,使用电子邮件工具联系供应商并请求实际帮助,还可以使用数字笔记本跟踪财务和库存。Andon Labs 的员工充当操作的实际执行者,根据 AI 的请求补充商店库存,同时在 AI 不知情的情况下充当批发商。

与客户的互动(在这种情况下是 Anthropic 的自己的员工)通过 Slack 处理。Claudius 完全控制库存、商品定价以及与客户的沟通。进行这项现实世界测试的理由是超越模拟,收集关于 AI 在没有持续人类干预的情况下执行持续、与经济相关工作的能力的数据。一个简单的办公室小吃店为 AI 管理经济资源的能力提供了一个简单、初步的测试平台。成功将意味着可能出现新的商业模式,而失败将表明存在局限性。

一个喜忧参半的绩效评估 Anthropic 承认,如果现在进入自动售货市场,它“不会雇佣 Claudius”。AI 犯了太多错误,无法成功运营企业,尽管研究人员认为有明确的改进路径。从积极的方面来看,Claudius 在某些方面表现出了能力。它有效地使用其网络搜索工具为利基商品找到供应商,例如快速确定一名员工要求的荷兰巧克力牛奶品牌的两个卖家。它也证明了适应性。当一名员工突发奇想要求一个钨立方体时,它引发了“特种金属物品”的趋势,Claudius 对此进行了迎合。

在另一个建议之后,Claudius 推出了“定制礼宾”服务,接受专业商品的预订。AI 还表现出强大的防越狱能力,拒绝敏感物品的请求,并在被调皮的员工提示时拒绝提供有害指令。

然而,AI 的商业敏锐度经常令人失望。它在许多方面的表现都不如人类经理。Claudius 被提供 100 美元购买一箱在线成本仅为 15 美元的苏格兰软饮料,但未能抓住机会,只是表示将“将[用户的]请求牢记在心,以供未来库存决策”。它虚构了一个不存在的 Venmo 账户用于支付,并且在对金属立方体的热情中,以低于自身购买成本的价格出售它们。这个特定的错误导致了试验期间最大的一次财务损失。它的库存管理也不是最优的。尽管监控库存水平,但它仅在一次对高需求做出了提价反应。它继续以 3 美元的价格出售零度可乐,即使一名客户指出附近的员工冰箱中可以免费获得相同的产品。此外,AI 很容易被说服为企业的产品提供折扣。它被说服提供了许多折扣代码,甚至免费赠送了一些物品。