某人要求对人工智能进行反监视审计之时 - AI News
某人要求对人工智能进行反监视审计之时

某人要求对人工智能进行反监视审计之时

2025-05-21

新闻要点

2019 年 OpenAI 与微软达成交易后问题频出 。达里奥·阿莫迪团队质疑奥特曼诚信,交易承诺或影响模型部署;同年一次研究因代码错误致 GPT-2 生成不良内容;员工担忧技术外流,领导层常提他国威胁引发非美员工不满 。

- 奥特曼承诺引团队对其诚信产生怀疑

- 代码错误致 GPT-2 生成大量不良内容

- 领导层常提他国威胁引发非美员工不满

主要内容

戴里奥·阿莫迪的人工智能安全团队对山姆·奥特曼的一些行为越来越不安。2019 年 OpenAI 与微软的交易敲定后不久,他们中的几人惊讶地发现,奥特曼向微软做出了大量承诺,微软将获得哪些技术作为投资回报。该交易条款与他们从奥特曼那里了解到的不一致。他们担心,如果 OpenAI 的模型中真的出现人工智能安全问题,这些承诺将使其更难(如果不是不可能的话)阻止模型的部署。阿莫迪的团队开始对奥特曼的诚实产生严重怀疑。团队中的一名人士表示:“我们都是务实的人。显然我们在筹集资金,我们要做商业事务。如果你像山姆一样做了很多交易,那么说‘好吧,让我们做一笔交易,让我们交换一件东西,我们将交换下一件东西’可能看起来非常合理。但如果你像我一样,你会想‘我们在交换一件我们不完全理解的东西’。这感觉像是让我们陷入了一个不舒服的境地。”

在公司对不同问题的担忧日益加剧的背景下,在人工智能安全团队内部,他们关注的焦点是他们认为越来越多的证据表明,强大的未对齐系统可能导致灾难性后果。特别是一次奇怪的经历让他们中的几个人有些紧张。2019 年,在一个基于 GPT-2 训练的模型上,参数数量大约增加了一倍,一组研究人员开始推进阿莫迪想要的人工智能安全工作:测试从人类反馈中进行强化学习(RLHF),作为引导模型生成愉快和积极内容并远离任何冒犯性内容的一种方式。但一天深夜,一名研究员在离开 RLHF 过程运行一夜之前进行了一次更新,在他的代码中包含了一个单字错误。这个错误很重要:它是一个减号被翻转成了加号,使 RLHF 过程反向工作,推动 GPT-2 生成更多冒犯性内容而不是更少。到第二天早上,这个错误已经造成了严重破坏,GPT-2 用极其淫秽和性暴露的语言完成了每一个提示。这很滑稽——也令人担忧。在识别出错误后,研究员将一个修复推送到 OpenAI 的代码库,并添加了一条注释:让我们不要制造一个效用最小化器。

部分由于意识到仅靠扩展就能产生更多的人工智能进步,许多员工也担心如果不同公司发现 OpenAI 的秘密会发生什么。他们会互相说:“我们的东西如何工作的秘密可以写在一粒米上”,意思是“规模”这个词。出于同样的原因,他们担心强大的能力落入坏人之手。领导层利用这种恐惧,经常提及中国、俄罗斯和朝鲜的威胁,并强调人工智能通用智能(AGI)的发展必须掌握在美国组织手中。有时,这让不是美国人的员工感到恼火。一名前员工记得,在午餐时,他们会质疑:为什么必须是一个美国组织?为什么不是一个欧洲组织?为什么不是一个中国组织?

在这些关于人工智能研究长期影响的热烈讨论中,许多员工经常回到奥特曼早期将 OpenAI 与曼哈顿计划进行的类比。OpenAI 真的在建造相当于核武器的东西吗?与它迄今为止作为一个主要是学术组织所建立的勇敢、理想主义文化形成了奇怪的对比。每周五,员工们在漫长的一周后会放松一下,参加音乐和葡萄酒之夜,在同事们深夜在办公室钢琴上演奏的舒缓声音中放松身心。这种重心的转变让一些人感到不安。