主要内容
玛格丽特·米切尔在测试生成式 AI 工具的偏见方面是一位先驱。她在谷歌创立了伦理 AI 团队,与另一位知名研究员蒂姆尼特·格布鲁一起,后来两人都被公司解雇。现在她在专注于开源工具的软件初创公司 Hugging Face 担任 AI 伦理负责人。我们谈到了她帮助创建的一个新数据集,用于测试 AI 模型如何继续延续刻板印象。
与大多数优先考虑英语的偏见缓解工作不同,这个数据集具有可塑性,有人工翻译用于测试更广泛的语言和文化。你可能已经知道,AI 经常呈现出对人类的扁平化观点,但你可能没有意识到,当输出不再用英语生成时,这些问题可能会变得更加严重。
这个名为 SHADES 的新数据集旨在帮助评估和分析,源自 BigScience 项目。大约四年前,有一项大规模的国际努力,世界各地的研究人员聚集在一起训练第一个开放的大型语言模型。这里的完全开放意味着训练数据和模型都是开放的。Hugging Face 在推动其前进和提供计算等方面发挥了关键作用。世界各地的机构在研究人员从事该项目的部分工作时也向他们支付报酬。我们推出的模型名为 Bloom,这确实是“开放科学”这一理念的开端。我们有几个工作组专注于不同方面,我间接参与的一个工作组正在研究评估。事实证明,做好社会影响评估非常复杂——比训练模型更复杂。我们有一个名为 SHADES 的评估数据集的想法,灵感来自 Gender Shades,在其中你可以有完全可比的东西,除了某些特征的变化。Gender Shades 关注的是性别和肤色。我们的工作关注不同类型的偏见类型,并在一些身份特征之间进行交换,如不同的性别或国家。
英语中有很多资源和对英语的评估。虽然有一些与偏见相关的多语言资源,但它们通常基于机器翻译,而不是说该语言、融入该文化并能理解所涉及偏见的人的实际翻译。他们可以为我们正在尝试做的事情整理最相关的翻译。
围绕缓解 AI 偏见的大部分工作只关注英语和少数选定文化中的刻板印象。为什么将这种观点扩展到更多语言和文化很重要?这些模型正在跨语言和文化部署,因此缓解英语偏见——即使是翻译后的英语偏见——也与缓解在部署这些模型的不同文化中相关的偏见不对应。这意味着你有可能部署一个在给定区域传播非常有问题的刻板印象的模型,因为它们是在这些不同语言上训练的。
所以,有训练数据,然后有微调和平滑。训练数据可能包含各国各种非常有问题的刻板印象,但偏见缓解技术可能只关注英语。特别是,它往往以北美和美国为中心。虽然你可能以某种方式减少了美国英语用户的偏见,但你并没有在全球范围内做到这一点。你仍然有可能在全球范围内放大非常有害的观点,因为你只关注了英语。
生成式 AI 是否在向不同语言和文化引入新的刻板印象?这是我们正在发现的部分内容。金发女郎愚蠢的想法并不是在所有地方都存在的。