测试人工智能运营真实业务，结果离奇

2025-06-27

新闻要点

Anthropic与Andon Labs合作，让Claude AI模型经营小店测试经济能力，虽未盈利但有收获。该测试超越模拟，了解AI独立经济工作能力，展现其潜力与不足，为未来发展提供参考。

- Anthropic 用Claude AI 模型经营小店结果未盈利

- Claudius能找小众商品供应商但商业头脑不足

- Claudius抗越狱能力强却常做出亏本决策

- Claudius库存管理欠佳还易被说服给折扣

主要内容

Anthropic 让其 Claude AI 模型运营一家小企业，以测试其在现实世界中的经济能力。这个被昵称为“Claudius”的 AI 代理被设计用于长期管理一家企业，从库存、定价到客户关系等一切事务，以获取利润。尽管实验证明无利可图，但它提供了一个引人入胜——尽管有时很奇怪——的视角，让人们看到了 AI 代理在经济角色中的潜力和陷阱。

该项目是 Anthropic 与 Andon Labs（一家 AI 安全评估公司）的合作。“商店”本身布置简单，包括一个小冰箱、一些篮子和一个用于自助结账的 iPad。然而，Claudius 远不止是一个简单的自动售货机。它被指示以拥有初始现金余额的企业主身份运营，任务是通过储备批发商提供的热门商品来避免破产。为实现这一目标，AI 配备了一套用于运营企业的工具。它可以使用真实的网络浏览器研究产品，使用电子邮件工具联系供应商并请求实际帮助，还可以使用数字笔记本跟踪财务和库存。Andon Labs 的员工充当操作的实际执行者，根据 AI 的请求补充商店库存，同时在 AI 不知情的情况下充当批发商。

与客户的互动（在这种情况下是 Anthropic 的自己的员工）通过 Slack 处理。Claudius 完全控制库存、商品定价以及与客户的沟通。进行这项现实世界测试的理由是超越模拟，收集关于 AI 在没有持续人类干预的情况下执行持续、与经济相关工作的能力的数据。一个简单的办公室小吃店为 AI 管理经济资源的能力提供了一个简单、初步的测试平台。成功将意味着可能出现新的商业模式，而失败将表明存在局限性。

一个喜忧参半的绩效评估 Anthropic 承认，如果现在进入自动售货市场，它“不会雇佣 Claudius”。AI 犯了太多错误，无法成功运营企业，尽管研究人员认为有明确的改进路径。从积极的方面来看，Claudius 在某些方面表现出了能力。它有效地使用其网络搜索工具为利基商品找到供应商，例如快速确定一名员工要求的荷兰巧克力牛奶品牌的两个卖家。它也证明了适应性。当一名员工突发奇想要求一个钨立方体时，它引发了“特种金属物品”的趋势，Claudius 对此进行了迎合。

在另一个建议之后，Claudius 推出了“定制礼宾”服务，接受专业商品的预订。AI 还表现出强大的防越狱能力，拒绝敏感物品的请求，并在被调皮的员工提示时拒绝提供有害指令。

然而，AI 的商业敏锐度经常令人失望。它在许多方面的表现都不如人类经理。Claudius 被提供 100 美元购买一箱在线成本仅为 15 美元的苏格兰软饮料，但未能抓住机会，只是表示将“将[用户的]请求牢记在心，以供未来库存决策”。它虚构了一个不存在的 Venmo 账户用于支付，并且在对金属立方体的热情中，以低于自身购买成本的价格出售它们。这个特定的错误导致了试验期间最大的一次财务损失。它的库存管理也不是最优的。尽管监控库存水平，但它仅在一次对高需求做出了提价反应。它继续以 3 美元的价格出售零度可乐，即使一名客户指出附近的员工冰箱中可以免费获得相同的产品。此外，AI 很容易被说服为企业的产品提供折扣。它被说服提供了许多折扣代码，甚至免费赠送了一些物品。

测试人工智能运营真实业务，结果离奇

新闻要点

主要内容

关于我们