摩尔线程开源MuJoCo Warp MUSA,国产GPU能否打破NVIDIA在机器人仿真领域的垄断?
2026-04-07 17:01 摩尔线程

摩尔线程开源MuJoCo Warp MUSA,国产GPU能否打破NVIDIA在机器人仿真领域的垄断?23

3月30日,摩尔线程正式开源MuJoCo Warp MUSA。这是具身智能领域首个基于MUSA架构的全功能GPU加速物理仿真后端,试图在机器人强化学习仿真训练这一长期由NVIDIA主导的技术赛道上,为国产算力打开一个缺口。

MuJoCo是目前学术界与工业界最广泛使用的物理仿真引擎之一,由Google DeepMind维护,OpenAI Gym、dm_control等标准平台均以其为物理后端。

原版MuJoCo主要依赖CPU运行,在复杂接触场景和海量样本生成任务中性能瓶颈明显。

为突破这一限制,DeepMind基于NVIDIA Warp编程语言推出了GPU加速版本MuJoCo Warp,并联合NVIDIA、Disney Research共同开发了Newton物理引擎,将MuJoCo Warp作为核心求解器集成其中。

摩尔线程所做的,正是为MuJoCo Warp增加对MUSA架构的原生支持,使其能够直接调用摩尔线程的全功能GPU。

从技术角度看,这并非简单的外包适配,而是在Warp编程语言与MUSA指令集之间建立了深度映射层。

据官方披露,该后端的仿真计算结果与CPU版本相比,单个仿真步长的绝对误差控制在1e-5以内,基本实现了计算精度的无损迁移。

性能层面,实际测试给出了可量化的数据。在典型四足机器人训练任务中,相较多核CPU,MuJoCo Warp MUSA实现了最高40倍的加速。

MTT S5000单卡可在1小时内完成宇树科技Go2机器狗的训练收敛;在G1人形机器人模仿学习任务中,单卡训练约4.8天完成收敛,并支持多卡近线性扩展。

这些数字放在NVIDIA Isaac Sim生态里不算顶尖,但对于从零起步的国产替代方案而言,至少证明了一条技术路径的可行性。

从产业逻辑看,这一开源项目的价值不止于加速本身。长期以来,机器人强化学习仿真训练高度依赖NVIDIA的CUDA生态和Isaac Sim平台,国产算力在这一领域长期缺乏可用、完整的基础支撑。

摩尔线程试图通过打通“云侧大规模训练—端侧SoC部署”全链路,为机器人仿真提供一套可落地的全栈国产算力参考方案。同时,其自研智能SoC芯片“长江”已经在端侧完成部署验证,意图实现从训练到推理的国产化闭环。

开源意味着选择了一条更开放的路径。摩尔线程相关负责人表示,后续将持续优化MUSA软件栈,并推进通用机器人仿真训练平台Lambda Lab的整合与开源共建。

这种方式能否吸引足够多的开发者参与,形成一个真正活跃的国产仿真生态,还需要时间检验。

一个值得追问的问题是,当NVIDIA、Google DeepMind和Disney Research联合推出的Newton引擎正在逐步统一机器人仿真标准时,国产算力选择在DeepMind主导的MuJoCo Warp分支上另起炉灶,究竟是找到了差异化突破口,还是会面临生态孤岛的风险?

开源只是第一步,后续的社区建设和商业验证才是真正的考验。

88.jpg