阿里发布具身大模型Qwen-Robot系列
2026-06-16 18:21 阿里

阿里发布具身大模型Qwen-Robot系列23

6月16日,阿里巴巴正式发布千问具身智能大模型Qwen-Robot系列。该系列包含三款模型:VLA操作模型Qwen-RobotManip、VLN移动模型Qwen-RobotNav和世界模型Qwen-RobotWorld,分别对应机器人的操作、移动与认知能力。

三款模型既可独立部署,也能协同运行,为不同形态机器人的真实场景落地提供通用基础模型。

Qwen-RobotManip针对传统VLA模型换硬件、换场景后迁移能力下降的痛点,采用一套80维的统一动作表征,为不同硬件定义了通用的“肢体语言”。

模型不再依赖绝对坐标计算,而是基于摄像头画面中的相对位置进行操作。搭载于不同硬件平台后,仅需少量交互反馈即可自动适配。

该模型在超过38000小时的开源语料上完成预训练,打破了行业高度依赖私有采集数据的常规路径。在横跨30项真实任务、4个机器人平台的三方真机测评RoboChallenge Table30 v1中,Qwen-RobotManip的两个版本包揽前两名。

Qwen-RobotNav基于Qwen-VL构建,将语言指令导航、目标搜索、自动驾驶等五大导航任务统一至同一框架。针对传统VLN模型记忆策略僵化的问题,该模型推出了任务自适应观察机制,能根据任务需求灵活切换记忆策略。

在1560万个样本上训练后,Qwen-RobotNav在5个导航领域取得SOTA成绩。Qwen-RobotWorld则基于对物理规律的建模,可推演并模拟机器人下一时刻的合理动作与状态。

该模型采用30%通用视频数据和70%具身专属数据,拥有860万条视频文本对、超2亿帧画面。在四大主流具身世界模型基准评测中,Qwen-RobotWorld取得全面领先。

从行业对比来看,谷歌DeepMind在2023年推出的RT-2是首个VLA模型,开创性地将互联网规模的视觉语言知识迁移至机器人控制。不过RT-2体量庞大,推理效率不高。

相比之下,Qwen-Robot系列采用了更细化的分工架构,将操作、导航和世界模型分开设计而非合并为一个巨型模型,这有助于降低单一模型的复杂度。

但三模型协同也带来了系统集成的额外开销,实际部署中模型之间的通信延迟和协调效率仍有待验证。

此外,Qwen-RobotManip在LIBERO-Plus评测中取得91.4%的成功率,而RT-2在真实环境中的泛化能力同样面临挑战。

当前具身智能行业整体仍处于早期探索阶段,模型训练缺乏统一范式,数据质量良莠不齐是核心制约因素。仿真环境与真实世界之间存在显著的“虚实鸿沟”,某些机器人在仿真环境中成功率高达89.4%,在真实家庭场景中骤降至12%。

世界模型本身也尚处在发展初期,在定义、数据、算法、评测等多个维度仍面临挑战。Qwen-Robot系列虽然提出了通用底座的概念,但其在真实复杂环境中的泛化能力和鲁棒性仍需大规模落地验证。

行业趋势方面,全球具身智能产业正处于从技术验证向场景落地跨越的拐点,视觉语言动作统一架构已确立技术主流地位。业内普遍认为,模型范式正在全面转向具身世界模型,明年将是机器人规模化部署落地的元年。

Qwen-Robot系列的发布,是阿里在这一方向上的重要布局,但其能否在真实商业场景中兑现“通用底座”的承诺,仍需时间和实践检验。

88.jpg