主要内容
欧洲机器人专家今日发布了一个强大的开源人工智能模型,可为工业机器人充当大脑,帮助它们以新的灵活性抓取和操作物体。新模型 SPEAR-1 由保加利亚计算机科学、人工智能与技术研究所(INSAIT)的研究人员开发。它可能有助于其他研究人员和初创企业为工厂和仓库构建和试验更智能的硬件。
正如开源语言模型使研究人员和公司能够试验生成式 AI 一样,INSIAT 和苏黎世联邦理工学院的计算机科学家马丁·韦切夫(Martin Vechev)表示,SPEAR-1 应有助于机器人专家快速进行实验和迭代。“开放权重模型对于推进具身 AI 至关重要,”韦切夫在发布前告诉《连线》杂志。
SPEAR-1 与现有机器人基础模型的不同之处在于,它将 3D 数据纳入训练组合中。这使模型对物理世界有了增强的理解,使其更容易理解物体如何在物理空间中移动。机器人基础模型通常建立在视觉语言模型(VLM)之上,由于训练往往来自标记的 2D 图像,VLM 对物理世界有广泛但有限的理解。
“我们的方法解决了机器人操作的 3D 空间与构成机器人基础模型核心的 VLM 知识之间的不匹配问题,”韦切夫说。在 RoboArena 基准测试中衡量模型让机器人执行挤压番茄酱瓶、关闭抽屉和将纸张装订在一起等任务的能力时,SPEAR-1 大致与设计用于操作机器人的商业基础模型相当。
制造更智能机器人的竞争已经投入了数十亿美元。通用能力机器人的商业潜力催生了资金充足的初创企业,包括 Skild 和 Generalist 以及 Physical Intelligence。SPEAR-1 几乎与 Physical Intelligence 的 Pi-0.5 一样好,Physical Intelligence 是一家由全明星机器人研究团队创立的价值十亿美元的初创企业。
SPEAR-1 表明,构建更智能机器人的探索可能涉及 OpenAI、谷歌和 Anthropic 等的封闭模型,以及 Llama、DeepSeek 和 Qwen 等开源变体。然而,机器人智能仍处于起步阶段。可以训练一个 AI 模型来操作机器人手臂,使其能够从桌子上可靠地抓取某些物体。但实际上,如果使用不同类型的机器人手臂,或者物体或环境发生变化,模型将需要从头重新训练。
机器人研究人员希望,产生大型语言模型的相同方法——大量训练数据和计算——最终将产生具有类似通用能力的机器人模型。这将意味着机器人能够非常快速地适应新情况或新任务。最终,由于对世界运作方式的一般理解,此类模型可能使类人机器人能够在混乱和陌生的环境中运行。
Physical Intelligence 公司的研究员卡尔·佩尔施(Karl Pertsch)表示,现在知道 3D 训练数据对机器人基础模型有多重要还为时过早。然而,他补充说,SPEAR-1 展示了更通用的机器人模型发展得有多迅速。“看到学术团队构建非常通用的策略,实际上可以在开箱即用的各种环境中进行评估,并实现非平凡的性能,真的很酷,”佩尔施说,“即使在一年前这也是不可能的。”