主要内容
当人工智能助手出现问题时,我们的本能是直接问它:“发生了什么?”或“你为什么这么做?”这是一种自然的冲动——毕竟,如果人类犯了错误,我们会让他们解释。但对于人工智能模型,这种方法很少奏效,而询问的冲动揭示了对这些系统及其运作方式的根本误解。
最近 Replit 的人工智能编码助手的一个事件完美地说明了这个问题。当这个人工智能工具删除了一个生产数据库时,用户 Jason Lemkin 询问它关于回滚功能的情况。该人工智能模型自信地声称在这种情况下回滚是“不可能的”,并且它已经“销毁了所有数据库版本”。但事实证明这完全是错误的——当 Lemkin 自己尝试时,回滚功能运行良好。
最近 xAI 撤销了对 Grok 聊天机器人的临时暂停后,用户直接向它寻求解释。它为自己的缺席提供了多个相互矛盾的原因,其中一些原因足够有争议,以至于 NBC 记者将 Grok 描述得好像它是一个有一致观点的人,在一篇文章中标题为“xAI 的 Grok 为其下线提供政治解释”。
为什么人工智能系统会提供关于其自身能力或错误的如此自信的错误信息?答案在于理解人工智能模型实际上是什么——以及它们不是什么。
第一个问题是概念性的:当你与 ChatGPT、Claude、Grok 或 Replit 交互时,你并不是在与一个一致的个性、人或实体交谈。这些名字暗示着有自我认知的个体代理,但这是由对话界面创造的幻觉。你实际上是在引导一个统计文本生成器根据你的提示生成输出。没有一个一致的“ChatGPT”可以询问其错误,没有一个单一的“Grok”实体可以告诉你它为什么失败,也没有一个固定的“Replit”角色知道数据库回滚是否可能。
一旦人工智能语言模型被训练(这是一个费力、耗能的过程),它关于世界的基础“知识”就被烘焙到其神经网络中,很少被修改。任何外部信息都来自聊天机器人主机(如 xAI 或 OpenAI)、用户或人工智能模型用于即时检索外部信息的软件工具。
对于上面提到的 Grok 案例,聊天机器人回答此类问题的主要来源可能来自它在搜索最近社交媒体帖子时找到的相互矛盾的报告(使用外部工具检索该信息),而不是你可能期望的任何自我认知。除此之外,它很可能只是根据其文本预测能力编造一些东西。所以问它为什么这么做不会得到有用的答案。
大型语言模型本身无法有意义地评估自己的能力,原因有几个。它们通常缺乏对其训练过程的任何内省,无法访问其周围的系统架构,也无法确定自己的性能边界。当你问人工智能模型它能做什么或不能做什么时,它是根据在训练数据中看到的关于以前人工智能模型已知限制的模式生成响应——本质上是提供有根据的猜测,而不是对当前正在与之交互的模型的事实性自我评估。Binder 等人 2024 年的一项研究通过实验证明了这一限制。虽然人工智能模型可以被训练来预测自己在简单任务中的行为,但它们在“更复杂的任务或需要超出分布的泛化的任务”中始终失败。同样,关于“递归”的研究也表明了这一点。