有缺陷的人工智能基准使企业预算面临风险 - AI News
有缺陷的人工智能基准使企业预算面临风险

有缺陷的人工智能基准使企业预算面临风险

2025-11-04

新闻要点

新学术研究表明AI基准存在缺陷,或致企业基于“误导性”数据决策 。企业投入巨额预算发展生成式AI,常依赖公开榜单与基准评估模型,而研究分析445个LLM基准后发现其多有不足,这会影响企业AI治理与投资策略,带来风险。

- AI基准研究 445个LLM基准多有至少一处弱点

- 构建效度问题 关键概念定义与操作化常存不足

- 基准失败原因 存定义模糊、统计不严谨等问题

主要内容

一项新的学术评论指出,人工智能基准存在缺陷,可能导致企业基于“误导性”数据做出高风险决策。企业领导者正为生成式人工智能项目投入八到九位数的预算。这些采购和开发决策通常依赖公共排行榜和基准来比较模型能力。

一项名为“衡量重要性:大型语言模型基准中的结构有效性”的大规模研究分析了来自领先人工智能会议的 445 个独立的大型语言模型基准。29 名专家评审员组成的团队发现,“几乎所有文章在至少一个领域都存在弱点”,削弱了它们关于模型性能的主张。

对于首席技术官和首席数据官来说,这触及了人工智能治理和投资策略的核心。如果一个声称测量“安全性”或“稳健性”的基准实际上并未捕捉到这些品质,企业可能会部署一个使自身面临严重财务和声誉风险的模型。

研究人员关注的核心科学原则是结构有效性。简单来说,这是测试衡量其声称要测量的抽象概念的程度。例如,虽然“智力”无法直接测量,但会创建测试作为可测量的代理。论文指出,如果基准的结构有效性低,“那么高分可能无关紧要甚至具有误导性”。

这项研究发现,关键概念经常“定义不清或操作化不当”,这可能导致“支持不足的科学主张、误导性研究和没有坚实证据基础的政策影响”。当供应商通过强调其在基准上的高分来竞争企业合同时,领导者实际上是在信任这些分数是真实世界业务性能的可靠代理。而这项新研究表明,这种信任可能是错误的。

在企业人工智能基准失败的方面,审查确定了从基准设计到结果报告的系统性失败。模糊或有争议的定义:无法定义就无法测量。研究发现,即使提供了现象的定义,47.8%的定义是“有争议的”,涉及“有许多可能定义或根本没有明确定义的概念”。例如,“无害性”——企业安全对齐的一个关键目标——经常缺乏明确、公认的定义。

缺乏统计严谨性:对于数据驱动型组织来说,最令人担忧的是,研究发现 445 个基准中只有 16%使用不确定性估计或统计测试来比较模型结果。没有统计分析,就无法知道模型 A 比模型 B 领先 2%是真正的能力差异还是简单的随机机会。企业决策正被那些无法通过基本科学或商业智能审查的数字所引导。

数据污染和记忆:许多基准,特别是那些用于推理的基准(如广泛使用的 GSM8K),当它们的问题和答案出现在模型的预训练数据中时就会受到破坏。当这种情况发生时,模型不是在推理以找到答案,而只是在记忆它。高分可能表明良好的记忆,而不是企业实际完成复杂任务所需的高级推理能力。论文警告说,这“破坏了结果的有效性”,并建议直接在基准中构建污染检查。

代表性不足的数据集:研究发现,27%的基准使用“方便抽样”,如重用现有基准或人类考试的数据。这些数据通常不具有代表性。