阿里发布具身大模型Qwen-Robot系列_科技

阿里发布具身大模型Qwen-Robot系列

2026-06-16 18:21 阿里

阿里发布具身大模型Qwen-Robot系列23

6月16日，阿里巴巴正式发布千问具身智能大模型Qwen-Robot系列。该系列包含三款模型：VLA操作模型Qwen-RobotManip、VLN移动模型Qwen-RobotNav和世界模型Qwen-RobotWorld，分别对应机器人的操作、移动与认知能力。

三款模型既可独立部署，也能协同运行，为不同形态机器人的真实场景落地提供通用基础模型。

Qwen-RobotManip针对传统VLA模型换硬件、换场景后迁移能力下降的痛点，采用一套80维的统一动作表征，为不同硬件定义了通用的“肢体语言”。

模型不再依赖绝对坐标计算，而是基于摄像头画面中的相对位置进行操作。搭载于不同硬件平台后，仅需少量交互反馈即可自动适配。

该模型在超过38000小时的开源语料上完成预训练，打破了行业高度依赖私有采集数据的常规路径。在横跨30项真实任务、4个机器人平台的三方真机测评RoboChallenge Table30 v1中，Qwen-RobotManip的两个版本包揽前两名。

Qwen-RobotNav基于Qwen-VL构建，将语言指令导航、目标搜索、自动驾驶等五大导航任务统一至同一框架。针对传统VLN模型记忆策略僵化的问题，该模型推出了任务自适应观察机制，能根据任务需求灵活切换记忆策略。

在1560万个样本上训练后，Qwen-RobotNav在5个导航领域取得SOTA成绩。Qwen-RobotWorld则基于对物理规律的建模，可推演并模拟机器人下一时刻的合理动作与状态。

该模型采用30%通用视频数据和70%具身专属数据，拥有860万条视频文本对、超2亿帧画面。在四大主流具身世界模型基准评测中，Qwen-RobotWorld取得全面领先。

从行业对比来看，谷歌DeepMind在2023年推出的RT-2是首个VLA模型，开创性地将互联网规模的视觉语言知识迁移至机器人控制。不过RT-2体量庞大，推理效率不高。

相比之下，Qwen-Robot系列采用了更细化的分工架构，将操作、导航和世界模型分开设计而非合并为一个巨型模型，这有助于降低单一模型的复杂度。

但三模型协同也带来了系统集成的额外开销，实际部署中模型之间的通信延迟和协调效率仍有待验证。

此外，Qwen-RobotManip在LIBERO-Plus评测中取得91.4%的成功率，而RT-2在真实环境中的泛化能力同样面临挑战。

当前具身智能行业整体仍处于早期探索阶段，模型训练缺乏统一范式，数据质量良莠不齐是核心制约因素。仿真环境与真实世界之间存在显著的“虚实鸿沟”，某些机器人在仿真环境中成功率高达89.4%，在真实家庭场景中骤降至12%。

世界模型本身也尚处在发展初期，在定义、数据、算法、评测等多个维度仍面临挑战。Qwen-Robot系列虽然提出了通用底座的概念，但其在真实复杂环境中的泛化能力和鲁棒性仍需大规模落地验证。

行业趋势方面，全球具身智能产业正处于从技术验证向场景落地跨越的拐点，视觉语言动作统一架构已确立技术主流地位。业内普遍认为，模型范式正在全面转向具身世界模型，明年将是机器人规模化部署落地的元年。

Qwen-Robot系列的发布，是阿里在这一方向上的重要布局，但其能否在真实商业场景中兑现“通用底座”的承诺，仍需时间和实践检验。

［本文作者i黑马，i黑马原创。如需转载请联系微信公众号（ID:iheima）授权，未经授权，转载必究。］