自变量开源机器人大脑,不用微调也能完成多种任务
2026-05-28 19:03 机器人

自变量开源机器人大脑,不用微调也能完成多种任务23

5月28日,自变量机器人开源了具身基础模型Wall-OSS-0.5。该模型属于VLA即视觉-语言-动作模型范畴,其核心特点是声称无需针对下游任务进行后训练,预训练完成后直接部署到真实机器人上即可完成多种操作任务。

目前业内大多数VLA模型都遵循预训练加后训练的基本范式。所谓微调,就是模型先在大规模通用数据上学习,再针对搬运、分拣等具体任务进行专项训练。

这种做法虽然行之有效,但也让一个问题变得模糊不清模型学到的通用能力,和死记硬背特定任务的程度之间,边界在哪里。

自变量机器人这次的选择是把那个“专项训练”环节直接拿掉,看看预训练模型单凭自身积累到底能做什么。

Wall-OSS-0.5在超过20种机器人形态、每轮超过100万条轨迹的数据上完成预训练,同时混入了约9000万条多模态语料。

自变量团队随后将模型直接部署到真实机器人上,测试了涵盖语义理解、刚性物体操作、柔性物体操作、精细化操作和长程多步操作等17个任务,不做任何针对性的任务微调。在4个任务中得分超过80分满分100分,其中一个从未在预训练中出现过的柔性物体任务绳子收紧得分为82分。

除了零样本测试,团队还对模型进行了微调实验。据称,Wall-OSS-0.5在同等数据预算下,与行业参考模型π0.5相比,平均任务进度领先17.5分。

这项尝试在技术上展示了一个可行的方向,但也有几个事实需要看清,首先,模型的零样本能力目前只在有限的任务集上得到验证,距离真实世界开放场景的泛化还有相当距离。

其次,17个测试任务中仍有相当部分表现不算理想,零样本部署的实际可用门槛还远未达到。此外,模型权重虽然开源,但预训练数据集的完整性和透明度并未详细披露,这对复现工作构成了一定的障碍。

从公司背景来看,自变量机器人成立于2023年12月,核心团队来自清华大学、北京大学等高校,创始人王潜本硕毕业于清华大学,CTO王昊曾在IDEA研究院领导封神榜大模型团队。

2026年以来,公司先后完成A++轮10亿元融资和B轮近20亿元融资,投资方包括字节跳动、阿里、美团、小米、红杉中国等,是目前国内唯一一家同时获得四家互联网大厂投资的具身智能企业。

此前,公司已推出量子一号、量子二号两款机器人本体,并逐步进入工业制造、物流、养老等领域,近期也与58到家合作将机器人送入家庭保洁场景。

再看同行的做法,目前国内VLA路线至少分成几个不同的技术取向。智元机器人更倾向于强调后训练的价值,其提出的SOP系统是一种面向真实世界部署的在线后训练方案,实验数据显示3小时在线后训练带来的能力提升约为30%,而单纯增加80小时离线数据仅能带来4%的提升。

智元还提出了ACoT-VLA框架,让机器人在动作空间直接做推理,在基准测试中取得一定成绩,但ACoT的推理速度瓶颈和早期版本在长程任务中的稳定性问题也有待持续解决。

银河通用机器人则深耕场景落地,发布了聚焦零售场景的端到端VLA大模型GroceryVLA,已经在无人药店等场景中实际部署。但问题同样明显,场景高度定制化的路线难以横向复制,泛化边界清晰,技术通用性受限。

此外,今年上半年地平线开源了全栈VLA基座模型HoloBrain-0,智源研究院也推出了世界模型+VLA框架VISTA,开源生态正在快速形成,但不同方案之间的兼容性、标准统一问题也成为新的行业难题。

从行业角度看,Wall-OSS-0.5这次开源的意义或许不在于预训练加后训练谁更重要,而是把具身智能领域中一个真实存在的问题摆上了台面我们是否需要重新思考模型训练路径的分配比例。

自变量在这件事情上做出了一个不太常见的公开表态,把未经微调的模型直接拿出来测试,意味着团队愿意接受零样本泛化不够完善的现实,而不是只公布微调后的成绩。这种做法本身对行业透明度和技术比较是有价值的。

一个理性的判断是,Wall-OSS-0.5的零样本能力在部分简单任务上达到可用水平,但距离复杂真实场景的大规模部署还有明显距离。模型参数规模0.5B在VLA模型中属于中小级别,相比OpenVLA的7B等主流开源模型仍有较大差距,这意味着其复杂场景下的语义理解和长程推理能力天然受限。

自变量团队的技术报告中明确提及,消融实验显示去掉Gradient-bridge监督支路后真机任务成功率会出现两位数百分点的下降,这恰恰说明该方案对特定训练配方的敏感性,而非架构的通用性胜利。

对于自动化程度要求较高的工业场景,零样本部署的可能性仍然有限。具身智能的竞争才刚刚开始,任何一种技术方案的真实验证,最终还是要看真实世界中的落地效果。

88.jpg