i黑马讯 11月20日,在智源研究院成立七周年之际举办的“2025具身智能开放日”媒体交流会上,院长王仲远与数十位媒体展开了近两小时的深度对话。他坦诚回应了人形机器人发展阶段、家庭落地时间表、数据路径之争、遥控演示与自主化、量产真伪需求、世界模型、行业融资热与潜在寒冬等16个话题。这16个观点看似分散,实则构成一个高度自洽、层层递进的完整产业判断体系:从技术本质出发→推导出最优路径→给出阶段判断与风险预警→提出资源最优配置方案→最终落脚于生态分工。整个逻辑环环相扣,体现出极强的系统性思维。以下是黑智对于王仲远部分观点的整理。
人形机器人仍处“非常早期”,家庭场景遥远,工业更快
王仲远判断,整个人形机器人产业仍处于非常早期的阶段。“从去年能走起来,到今年能跑起来、全身控制能力还是有非常大的进展……能连续翻十几二十个跟头、长时间跳舞、甚至拖动汽车,但硬件稳定性依然不太够。”
他透露,智源曾一次性采购10台某款机器人,一两个月内坏掉5台。“整个硬件稳定性依然阻碍它进入到真实工业化场景或家庭场景。”
他进一步指出,家庭陪伴型或特种机器人(如割草机器人)有可能较早出现新形态,但真正的人形机器人进入家庭“至少5-10年起”。工业场景会明显更快落地。
视频数据为主、真机微调为辅,是可行的现实路径
针对具身智能数据之争,王仲远的核心观点是在缺乏海量真实机器人数据的前提下,利用视频数据训练具身大模型是当前“最为可行”的技术路径。
训练强大的具身智能模型需要海量高质量的机器人交互数据。但现实中部署千万甚至上亿台机器人来采集数据是不现实的,因此必须寻找替代方案。智源找到的替代方案是“视频数据”。首先,智源研究院提出来以长视频数据为主,是遵循第一性原理,与人类从眼睛观察学习世界一样。其次,视频是唯一能够规模化获取、且包含了时空、因果、逻辑、意图、图像、声音等多种关键信息的综合性数据。
基于视频数据,智源研究院首先利用海量视频数据训练一个通用的多模态基座模型(如智源的悟界·Emu3.5)。这个模型能力广泛,不仅服务于机器人,也能够生成图像、视频等。其次,在基座模型的基础上,再用相对少量的真机采集的数据进行微调,就像“示范教学”,使模型能适配不同的机器人任务。
对于触觉、力控等视频缺失的信息,他承认这确实是视频数据的短板,但强调力反馈是重要模态,目前已有带力反馈的采集设备在实验室使用。
遥控演示≠玩具属性,先专用后通用是必经之路
在各类科技展会与互动演示中,不少观众发现,许多机器人仍然需要通过遥控器来完成指令执行与动作展示。这一现象引发外界疑问:机器人何时才能摆脱“高级玩具”的标签,实现真正的自主智能?
针对这一问题,王仲远指出,当前依靠遥控操作的机器人属于“专用模型”阶段。每一个预设动作,都依赖于专门采集的数据与针对性训练,只能在特定场景下运行,缺乏跨场景通用性。
正如早期人工智能在人脸识别、图像分类等垂直领域取得的突破一样,这类专用模型虽在单一任务中表现优异,但难以迁移到其他场景。而近年来兴起的大语言模型,则展现出完全不同的发展路径——其核心优势在于通用性,能够跨越多种任务与场景进行泛化处理。他认为,机器人行业的发展或将遵循相似的轨迹:先通过专用“具身智能模型”在具体场景中落地应用,逐步提升机器人在特定任务中的准确率与稳定性,实现硬件可靠性与数据闭环,从而推动整个产业实现初步商业化。
在这一过程中,“遥控器”仍具备其现实意义。它不仅是一种操作手段,更可被视为一种高级指令形式。然而,这距离理想中的“具身智能”仍有差距。
要实现这一目标,关键在于数据积累与模型演进。目前,机器人尚未形成规模化的“专属数据池”。王仲远指出,只有当机器人的社会保有量达到一定规模,其所产生的海量行为数据被系统性地收集、开放并用于训练,才有望催生真正意义上的“具身大模型”。这一模型将不再局限于预设动作,而是具备自适应、自学习的能力,从而逐步接近人类的智能水平。“这显然还是有很长路要走。”
世界模型不等于视频生成模型
王仲远特别澄清了当前业界对“世界模型”存在的普遍误读,即简单将视频生成能力等同于世界模型。他指出,视频生成仅展现了世界模型中的一项关键能力——“下一状态预测”(Next State Prediction),但这并非世界模型的全部内涵。而且此类预测未必以视频形式呈现,亦可体现为图文信息、行为指令或机器可读的状态表达。
王仲远进一步阐释,理想中的世界模型应具备对真实物理世界的感知与理解能力,能够基于先前的时空状态输入,解析当前环境、预测未来状态,并在此基础上驱动机器人执行相应决策与动作——无论是手部操作还是语言回应,皆属于世界模型的能力范畴,其内涵远不止于视频生成。
今年6月,智源研究院正式发布“悟界”系列大模型,作为此前“悟道”系列的自然延伸,该系列将研发重点完全聚焦于多模态模型与世界模型。王仲远指出,“这是大模型融入物理世界的必经之路。”由于融合了多模态理解与生成能力,“悟界”模型也被称为“原生多模态世界模型”。
在世界模型被视作大模型进入物理世界的关键基座之外,智源研究院还布局了多个面向真实物理需求的模型系列。例如,面向机器人领域的RoboBrain(具身大脑系列模型)、面向脑科学研究的Brainμ,以及面向生命科学的OpenComplex系列模型。这些模型均具备多模态特性——蛋白质模型需理解蛋白质折叠状态以预测其功能;脑科学模型则需解析多模态的脑神经信号。
王仲远强调,多模态大模型与世界模型是实现通用人工智能(AGI)并应对物理世界复杂挑战的核心路径,因此已成为智源研究院的重点研究方向。他表示,未来一旦多模态技术路径趋于成熟与收敛,研究院将推动相关技术向企业转移,并在这一过程中持续孵化创新企业,加速技术落地与应用实践。
警惕“伪需求”驱动的虚假繁荣
“从迭代到真正进入到量产,进入到稳定态,还有很长距离。现在,硬件、模型、数据三条线并行,大家都在奔跑,各种各样进展和成果涌现。但,每一条线也都是另外一条线的瓶颈,尚未形成系统性的化学反应。”
对于2025年被广泛称为“量产元年”,王仲远既乐观又谨慎。他乐见灵巧手等硬件出货量突破万台以及部分机器人企业宣布实现量产,但也担心量产不是由真实需求驱动,而是由伪需求或者示范性验证小需求形成的。“如果不是真实需求推动形成的量产,就会在一定热度之后,因为技术不够成熟或者因没达到场景方的预期而不再继续购买,这就会出现问题,有可能出现冷却、泡沫破裂,或者暂时低谷期。”
王仲远强调,量产是推动硬件迭代的关键。“只有当出货量达到一定程度,你才能够知道硬件存在什么样问题尤其是长尾问题,才能够不断迭代使得它真正进入到好用阶段。”他举例称,某型号机器人在采购十台中有五台出现故障,反映出当前部分产品仍停留在科研阶段。在其实验室中,不少机械臂因过热保护频繁停机,甚至需额外配备电风扇散热,这显示许多硬件尚未达到量产可用的标准。唯有通过规模化应用,才能有效验证产品的使用时长、稳定性和安全性。
目前,具身机器人企业正走在量产的路上。随着机器人技术快速迭代,国内机器人价格已从百万级逐步下探至10万元以内。王仲远指出,若未来机器人价格降至数千元级别,其普及速度将显著加快。目前,陪伴型、导览导购型等专用机器人因成本可控、解决具体问题,更易实现规模化应用;而完全通用的复杂机器人技术仍需长期突破。他预测,未来两三年内,具身智能行业将迎来专用机器人在真实场景中批量落地的阶段,但应对通用能力的突破保持“客观期待”。“大家对机器人通用能力、泛化性要有更加客观期待,不能有过高的期待。”
因此,在现在这样的时间节点,对于机器人创业公司,王仲远建议聚焦可复制、规模化的真实场景,深耕单一领域,确保产品能稳定运行(如7×24小时工作),而非盲目追求“做万能具身Anything”。“因为技术路线不收敛,除非有很强融资能力和活下来能力,能够持续做科研,也许可以去做,但对于很多创业创始人来讲,第一要义应该先活下来。”
活动当天,智源研究院还向外界分享了最新科研进展。智源研究院聚焦于构建通用大脑平台、优化人机交互、完善工具链与数据生态,并建立系统化评测体系。其核心进展包括:推出升级的RoboBrain 2.0 Pro及系列专用模型,提升时序、空间与灵巧操作能力;开发低延迟全双工语音RoboBrain-Audio与终身记忆系统RoboBrain-Memory,实现拟人化交互;打造CoRobot、FlagOS-Robo等软件框架与全流程开发平台Robo X studio;联合开源高质量真机数据集RoboCOIN;并携手多方建立透明、可信的评测生态,推动技术落地与应用创新。



