Databricks 有一招能让 AI 模型自我提升 - AI News
Databricks 有一招能让 AI 模型自我提升

Databricks 有一招能让 AI 模型自我提升

2025-03-25

新闻要点

Databricks开发出无需干净标注数据提升AI模型性能的方法TAO。该方法结合强化学习与合成训练数据,具创新性。可助企业部署智能体,突破数据质量限制,应用前景广阔。

- Databricks开发TAO方法 无需干净标注数据提升模型性能

- TAO结合强化学习与合成数据 具技术创新性

- TAO助企业突破数据限制 部署智能体实现任务自动化

主要内容

Databricks 公司致力于帮助大企业构建定制化人工智能模型,近日开发出一种无需干净标记数据就能提升人工智能模型性能的机器学习技巧。Databricks 的首席人工智能科学家 Jonathan Frankle 在过去一年中与客户交流,了解他们在让人工智能可靠工作方面面临的关键挑战。问题在于数据不干净,Frankle 称“每个人都有一些数据,也都有自己想做的事情,但缺乏干净数据使得微调模型以执行特定任务具有挑战性。没人能提供可以直接用于模型提示或应用编程接口的优质、干净的微调数据”。
Databricks 的模型可让企业最终部署自己的智能体执行任务,而不会受到数据质量的阻碍。该技术让人们得以一窥工程师如今用于提升先进人工智能模型能力的一些关键技巧,尤其是在难以获取良好数据时。该方法利用有助于生成先进推理模型的理念,将强化学习(一种让人工智能模型通过实践提升的方式)与“合成”或人工智能生成的训练数据相结合。OpenAI、谷歌和 DeepSeek 的最新模型都严重依赖强化学习和合成训练数据。《连线》杂志曾透露,英伟达计划收购专门从事合成数据业务的 Gretel。Frankle 表示“我们都在探索这个领域”。
Databricks 的方法利用了这样一个事实:即使是一个较弱的模型,在经过足够尝试后,也能在给定任务或基准测试中取得良好成绩。研究人员将这种提升模型性能的方法称为“N 选最佳”。Databricks 训练了一个模型,根据示例预测人类测试者更喜欢哪种“N 选最佳”结果。然后,Databricks 的奖励模型(DBRM)可用于提升其他模型的性能,而无需进一步的标记数据。DBRM 用于从给定模型中选择最佳输出,从而为进一步微调模型创建合成训练数据,使其首次输出更优。Databricks 将其新方法称为测试时自适应优化(TAO)。Frankle 称“我们正在讨论的这种方法使用了一些相对轻量级的强化学习,将‘N 选最佳’的优势基本融入到模型本身中”,他还补充说,Databricks 的研究表明,TAO 方法在扩展到更大、更强大的模型时会有所改进。
强化学习和合成数据已经被广泛使用,但将它们结合起来以改进语言模型是一种相对较新且技术上具有挑战性的技术。Databricks 对其开发人工智能的方式异常开放,因为它想向客户展示它具备为他们创建强大定制模型的技能。该公司此前曾向《连线》杂志透露它是如何从零开始开发 DBX 这一前沿开源大型语言模型(LLM)的。在没有良好标记、精心策划的数据的情况下,微调 LLM 以更有效地执行特定任务(如分析财务报告或健康记录以发现模式或识别问题)具有挑战性。许多公司现在希望使用 LLM 通过所谓的智能体实现任务自动化。例如,金融领域的智能体可能会分析公司的关键绩效,然后生成报告并自动发送给不同的分析师;健康保险领域的智能体可能会帮助引导客户获取有关相关药物或疾病的信息。Databricks 在 FinanceBench 上测试了 TAO 方法,这是一个测试语言模型回答金融问题能力的基准。在这个基准上,Meta 最小的免费人工智能模型 Llama 3.1B 得分为 68.4%,而 OpenAI 的专有 GPT-4o 和 o3-mini 模型得分为 82.1%。使用 TAO 技术,Databricks 使 Llama 3.1B 在 FinanceBench 上的得分达到 82.8%,超越了 OpenAI 的模型。