主要内容
谷歌为其 Gemini 2.5 Flash 模型引入了一种 AI 推理控制机制,允许开发者限制系统在解决问题时消耗的处理能力。该机制于 4 月 17 日发布,“思维预算”这一特性是对行业日益增长的挑战的回应:先进的 AI 模型经常过度分析简单查询,消耗不必要的计算资源,推高运营和环境成本。
虽然这不是革命性的,但这一发展代表了朝着解决效率问题迈出的实际一步,随着推理能力在商业 AI 软件中成为标准,效率问题已浮出水面。新机制可在生成响应之前精确校准处理资源,可能会改变组织管理 AI 部署的财务和环境影响的方式。
Gemini 的产品管理总监 Tulsee Doshi 承认:“模型过度思考,对于简单提示,模型思考的时间超过了所需。”这一承认揭示了先进推理模型面临的挑战——就像用工业机械砸开核桃一样。
向推理能力的转变带来了意想不到的后果。传统大型语言模型主要匹配训练数据中的模式,而较新的迭代尝试逐步逻辑地解决问题。虽然这种方法在处理复杂任务时能产生更好的结果,但在处理简单查询时会引入显著的低效。
平衡成本和性能:未经控制的 AI 推理的财务影响是巨大的。根据谷歌的技术文档,当完全激活推理时,生成输出的成本比标准处理大约高出六倍。成本乘数为精细控制提供了强大的动力。
研究推理模型的 Hugging Face 工程师 Nathan Habib 称,这个问题在整个行业中普遍存在。“在急于展示更智能的 AI 时,公司甚至在没有问题的情况下也像使用锤子一样使用推理模型。”
这种浪费不仅仅是理论上的。Habib 展示了一个领先的推理模型在尝试解决有机化学问题时如何陷入递归循环,重复“等等,但是……”数百次——实际上经历了计算崩溃并消耗处理资源。
DeepMind 评估 Gemini 模型的 Kate Olszewska 证实,谷歌的系统有时会遇到类似问题,陷入循环,消耗计算能力而不提高响应质量。
谷歌的 AI 推理控制为开发者提供了一定程度的精度。该系统提供了从零(最小推理)到 24,576 个“思维预算”令牌的灵活范围——这些计算单元代表模型的内部处理。这种细粒度的方法允许根据具体用例进行定制化部署。
DeepMind 的首席研究科学家 Jack Rae 表示,定义最佳推理水平仍然具有挑战性:“很难确定现在什么是完美的任务需要思考。”
发展理念的转变:AI 推理控制的引入可能标志着人工智能发展方式的改变。自 2019 年以来,公司通过构建具有更多参数和训练数据的更大模型来追求改进。谷歌的方法暗示了一种注重效率而非规模的替代路径。
Habib 表示:“缩放定律正在被取代”,这表明未来的进展可能来自优化推理过程,而不是不断扩大模型规模。环境影响同样重要。随着推理模型的激增,其能源消耗也成比例增长。研究表明,推理——生成 AI 响应——现在对技术的碳足迹贡献更大。