主要内容
虚拟仿真数据正推动企业环境中的物理AI发展,其中艾伦人工智能研究所(Ai2)的MolmoBot项目成为典型代表。该模型通过合成数据训练,大幅降低了物理AI开发成本,突破了传统依赖人工演示数据的局限。
传统物理AI系统(如DROID和Google DeepMind的RT-1)需依赖昂贵且耗时的人工远程操作轨迹:DROID包含7.6万条轨迹(约350小时人力),RT-1则需13万次实验(17个月人工收集)。这种方式导致研究预算高企,技术能力集中于少数资源充裕的实验室。
Ai2提出全新解决方案:MolmoBot模型套件完全基于合成数据训练。通过名为MolmoSpaces的系统,团队利用MuJoCo物理引擎结合领域随机化(动态调整对象、视角、光照和动力学参数),生成180万条专家操作轨迹,避免了人工远程操作的需求。
数据生成效率方面,100个Nvidia A100 GPU每小时可产生约1024集数据,相当于每小时获得130小时机器人实际操作经验,数据吞吐量提升近四倍。
在性能测试中,MolmoBot在桌面抓取任务中成功率达79.2%,远超传统真实数据训练模型(39.2%)。其提供轻量化SPOC模型和PaliGemma backbone架构,支持边缘计算和移动操作(如接近、抓取、拉门),为全球研究社区提供可复用工具,推动物理AI通用化发展。