主要内容
蚂蚁集团正依靠国产半导体来训练人工智能模型,以降低成本并减少对受限美国技术的依赖。阿里巴巴旗下的该公司已使用国内供应商的芯片,包括与母公司阿里巴巴和华为技术相关的芯片,采用专家混合(MoE)方法训练大型语言模型。消息称,结果与英伟达 H800 芯片的产出相当。尽管蚂蚁仍在其一些 AI 开发中使用英伟达芯片,但一位消息人士称,该公司在其最新模型中越来越多地转向 AMD 和中国芯片制造商的替代品。
这一发展标志着蚂蚁在中美科技公司日益激烈的 AI 竞赛中参与度的加深,尤其是在公司寻求具有成本效益的模型训练方式之际。对国产硬件的试验反映了中国公司在规避出口限制方面的更广泛努力,这些限制阻碍了对英伟达 H800 等高端芯片的访问,尽管它不是最先进的,但仍是中国组织可用的更强大的 GPU 之一。
蚂蚁已发表一篇研究论文描述其工作,称其模型在某些测试中表现优于 Meta 开发的模型。最初报道此事的彭博新闻社尚未独立验证该公司的结果。如果这些模型如声称的那样表现出色,蚂蚁的努力可能代表着中国在降低运行 AI 应用成本和减少对外国硬件依赖方面的一步进展。
MoE 模型将任务分为由不同组件处理的较小数据集,并在 AI 研究人员和数据科学家中引起了关注。该技术已被谷歌和杭州初创公司 DeepSeek 使用。MoE 概念类似于拥有一组专家,每个专家处理任务的一部分,以使模型生产过程更高效。
蚂蚁拒绝就其硬件来源的工作发表评论。训练 MoE 模型依赖于高性能 GPU,对于较小的公司来说,这些 GPU 可能过于昂贵而无法获取或使用。蚂蚁的研究重点在于降低这一成本障碍。该论文的标题后缀有一个明确的目标:在没有高端 GPU 的情况下扩展模型。
蚂蚁的方向和使用 MoE 降低训练成本与英伟达的方法形成对比。英伟达首席执行官 Jensen Huang 表示,即使引入更高效的模型,如 DeepSeek 的 R1,对计算能力的需求仍将继续增长。他认为,公司将寻求更强大的芯片来推动收入增长,而不是旨在用更便宜的替代品降低成本。英伟达的战略仍然集中在构建具有更多核心、晶体管和内存的 GPU。
根据蚂蚁集团的论文,使用传统高性能硬件训练一万亿个令牌(AI 模型用于学习的基本数据单位)的成本约为 635 万元(约 88 万美元)。该公司的优化训练方法通过使用低规格芯片将成本降低至约 510 万元。蚂蚁表示,计划将以这种方式生产的模型——Ling-Plus 和 Ling-Lite——应用于医疗保健和金融等工业 AI 用例。今年早些时候,该公司收购了中国在线医疗平台好大夫,以进一步实现蚂蚁在医疗保健中部署基于 AI 的解决方案的雄心。它还运营其他 AI 服务,包括名为智小宝的虚拟助手应用和名为蚂蚁财富的金融咨询平台。
“如果你找到一个攻击点来击败世界上最好的功夫大师,你仍然可以说你击败了他们,这就是为什么实际应用很重要,”北京 AI 公司盛商科技的首席技术官 Robin Yu 表示。蚂蚁已将其模型开源。Ling-Lite 有 168 亿个参数——有助于确定模型功能的设置。