蚂蚁灵波开源LingBot-Map,单摄像头实时建图能比离线方案更准吗?
2026-04-17 16:36 蚂蚁灵波

蚂蚁灵波开源LingBot-Map,单摄像头实时建图能比离线方案更准吗?23

2026年4月16日,蚂蚁集团旗下具身智能公司蚂蚁灵波科技宣布开源流式三维重建模型LingBot-Map。

这套模型仅需一颗普通RGB摄像头,就能在视频采集过程中实时完成相机位姿估计与场景三维结构重建,为机器人导航、自动驾驶、AR眼镜等场景提供持续的空间感知能力。

流式三维重建的核心难点在于平衡几何精度、时序一致性与运行效率。与传统方法“先采集、后处理”的模式不同,流式重建要求系统边看边理解,一边接收新画面一边持续完成定位与建图,同时还要控制计算与存储开销。

LingBot-Map采用了纯自回归式建模,基于几何上下文Transformer,在不依赖未来帧信息的前提下逐帧处理当前及历史画面。

其核心创新在于几何上下文注意力机制(GCA),能够高效组织和利用跨帧几何信息,在保留关键历史数据的同时减少冗余计算。

这一设计借鉴了经典SLAM系统对空间信息分层管理的思路,但将传统方法中依赖手工设计和复杂优化的部分交由模型统一学习完成。

性能方面,LingBot-Map在多个权威基准上表现突出。在Oxford Spires数据集上,模型绝对轨迹误差(ATE)仅为6.42米,轨迹精度较此前最优流式方法提升约2.8倍,甚至优于离线方法DA3(12.87米)和VIPE(10.52米)。

在ETH3D基准上,其重建F1分数达到85.70,较第二名提升超过8%。推理速度可实现约20FPS,并支持超过10,000帧的长视频连续推理,长序列运行精度几乎无衰减。

单摄像头方案对硬件成本的压缩是显见的。相比传统视觉SLAM方案通常需要双目相机、RGB-D相机或激光雷达配合,LingBot-Map将硬件门槛降到了一颗普通RGB摄像头,这对于消费级机器人和低成本自动化设备而言意义直接。

但问题也随之而来,纯视觉方案在弱纹理、光照剧烈变化等场景下的鲁棒性,能否真正满足实际部署需求?

从ETH3D和Oxford Spires的测试结果看,模型在这些极端场景下依然保持了较好的精度,但实验室数据与真实产线环境之间的差距,仍有待更多应用案例来验证。

这是蚂蚁灵波今年开源的第5款模型。今年1月,蚂蚁灵波连续开源了高精度空间感知模型LingBot-Depth、具身大模型LingBot-VLA、世界模型LingBot-World以及具身世界模型LingBot-VA。

此次LingBot-Map的开源,补齐了实时空间理解与在线三维建图的关键拼图,与上述模型形成了从深度感知到场景重建、从世界模拟到决策执行的完整技术链路。

目前LingBot-Map的模型和代码已在Hugging Face和ModelScope开源。

蚂蚁灵波采取的开源策略并非孤例。Meta的DroidBot、谷歌的Open X-Embodiment Dataset等均在推动机器人数据的开源共享,而SLAM领域已有ORB-SLAM3、Kimera、VINS-Mono等成熟开源方案。

但与这些方案不同的是,LingBot-Map并非传统的SLAM系统,而是基于学习方法的流式重建模型。它将经典SLAM中的位姿图优化、闭环检测等模块,以数据驱动的方式重新实现。

这种做法能更好地利用大规模数据进行泛化能力提升,但也面临模型可解释性和长尾场景泛化的挑战。开源后开发者社区的反馈,将是对这套方案真正价值的检验。

88.jpg