主要内容
艾伦人工智能研究所(Ai2)的研究人员开发了一种新型大型语言模型,使得即使在模型构建完成后,也能控制训练数据的使用方式。这种名为 FlexOlmo 的新模型可能会挑战当前大型人工智能公司从网络、书籍和其他来源大量收集数据(往往不考虑所有权)并完全拥有由此产生的模型的行业范式。
如今,数据一旦被纳入 AI 模型,就像从做好的蛋糕中回收鸡蛋一样困难。华盛顿西雅图的 Ai2 首席执行官阿里·法哈迪(Ali Farhadi)表示:“传统上,你的数据要么在模型内,要么在模型外。一旦我在该数据上进行训练,你就失去了控制权。除非你强迫我进行另一轮数百万美元的训练,否则你别无他法。”
Ai2 的前卫方法将训练进行了划分,以便数据所有者能够施加控制。那些希望向 FlexOlmo 模型贡献数据的人可以首先复制一个名为“锚”的公开共享模型。然后,他们使用自己的数据训练第二个模型,将结果与锚模型合并,并将结果反馈给正在构建第三个也是最终模型的人。以这种方式贡献意味着数据本身不必被移交。并且由于数据所有者的模型与最终模型的合并方式,以后可以提取数据。
例如,一家杂志出版商可能会将其文章档案中的文本贡献给一个模型,但如果出现法律纠纷或公司反对模型的使用方式,以后可以删除基于该数据训练的子模型。Ai2 的研究科学家闵世勋(Sewon Min)表示:“训练是完全异步的。数据所有者不必协调,训练可以完全独立进行。”
FlexOlmo 模型架构是一种“专家混合”,这是一种流行的设计,通常用于将多个子模型同时组合成一个更大、更强大的模型。Ai2 的一项关键创新是一种合并独立训练的子模型的方法。这是通过使用一种新的方案来表示模型中的值来实现的,以便在运行最终组合模型时可以将其能力与其他模型合并。
为了测试该方法,FlexOlmo 研究人员从书籍和网站等专有来源创建了一个名为 Flexmix 的数据集。他们使用 FlexOlmo 设计构建了一个具有 370 亿个参数的模型,约为 Meta 最大开源模型的十分之一。然后,他们将其模型与其他几个模型进行了比较。他们发现,该模型在所有任务上都优于任何单个模型,并且在常见基准测试中比其他两种合并独立训练模型的方法得分高 10%。
斯坦福大学的 AI 研究员梁培生(Percy Liang)表示,Ai2 的方法似乎是一个有前途的想法。他说:“提供对数据的更模块化控制——尤其是无需重新训练——是一个令人耳目一新的方向,挑战了将语言模型视为整体黑箱的现状。开发过程的开放性——模型是如何构建的、进行了哪些实验、做出了哪些决策——是缺失的。”
法哈迪和闵世勋表示,FlexOlmo 方法还可能使 AI 公司以更可控的方式访问敏感的私人数据,因为无需披露该数据即可构建最终模型。然而,他们警告说,可能有可能从最终模型中重建数据,因此可能需要像差分隐私这样的技术,该技术允许以数学上保证的隐私贡献数据,以确保数据的安全。