主要内容
英伟达收购合成数据公司Gretel 助力AI开发者
据知情人士透露,英伟达已斥资九位数收购合成数据公司Gretel。此次收购价格超过Gretel最近一轮估值的3.2亿美元,但具体收购条款仍不得而知。Gretel及其约80名员工将并入英伟达,其技术将成为芯片巨头日益增长的基于云的生成式AI服务套件的一部分,面向开发者。
随着英伟达推出合成数据生成工具,开发者可以训练自己的AI模型并对其进行微调,以适应特定应用。理论上,合成数据可以创造近乎无限的AI训练数据供应,有助于解决自ChatGPT于2022年主流化以来一直困扰AI行业的“数据稀缺”问题。然而,专家表示,在生成式AI中使用合成数据也存在风险。英伟达对此拒绝发表评论。
Gretel成立于2019年,由Alex Watson、John Myers和Ali Golshan(同时也是CEO)共同创立。该初创公司为开发者提供合成数据平台和一系列API,帮助他们构建生成式AI模型,同时解决数据访问不足和隐私担忧问题。Gretel并不构建和授权自己的前沿AI模型,而是对现有的开源模型进行微调,以增加差分隐私和安全功能,然后打包销售。在收购前,Gretel已获得超过6700万美元的风险投资。
与人工生成或现实世界的数据不同,合成数据是计算机生成的,旨在模拟现实世界的数据。支持者表示,这使得构建AI模型所需的数据生成更加可扩展、减少劳动密集型工作,并便于资源有限的AI开发者使用。隐私保护是合成数据的另一大卖点,使其成为医疗保健提供者、银行和政府机构等机构的理想选择。
英伟达长期以来一直为开发者提供合成数据工具。2022年,它推出了Omniverse Replicator,使开发者能够生成定制的物理准确的合成3D数据以训练神经网络。去年6月,英伟达开始推出一系列开源AI模型,为开发者生成合成训练数据以构建或微调大型语言模型(LLMs),涵盖医疗、金融、制造、零售等各行各业。
在本周二的年度开发者大会上,英伟达联合创始人兼首席执行官黄仁勋(Jensen Huang)就如何经济有效地快速扩展AI行业面临的挑战进行了演讲。“我们关注的三个问题是:一、如何解决数据问题?如何在何处创建训练AI所需的数据?二、模型架构是什么?三、缩放定律是什么?”黄仁勋还介绍了该公司如何在机器人平台上使用合成数据生成技术。
瑞士联邦理工学院博士后研究员安娜-玛丽亚·克雷图(Ana-Maria Cretu)表示,合成数据可以以表格数据的形式存在,如人口统计或医疗数据,这可以解决数据稀缺问题或创建更多样化的数据集。例如,如果一家医院想构建用于跟踪某种癌症的AI模型,但只能使用来自1000名患者的数据集,合成数据可用于填补数据集、消除偏差和匿名化真实人类数据。“这也提供了一定的隐私保护。”克雷图补充道。