三维空间太难懂?RoboTracer让机器人理解复杂空间指令,推理3 D空间轨迹,开放世界也能精确行动

本文的主要作者来自北京航空航天大学、北京大学、北京智源人工智能研究院和中科院自动化研究所。本文的第一作者为北京航空航天大学博士生周恩申,主要研究方向为具身智能和多模态大模型。本文的共一作者兼项目负责人为北京智源研究院研究员迟程。本文的通讯作者为北京航空航天大学教授盛律和北京大学计算机学院研究员、助理教授仉尚航。
我们希望具身机器人真正走进真实世界,尤其走进每个人的家里,帮我们完成浇花、收纳、清洁等日常任务。但家庭环境不像实验室那样干净、单一、可控:物体种类多、摆放杂、随时会变化,这让机器人在三维物理世界中「看懂并做好」变得更难。
想象一下你下班回到家,对家用服务机器人说: 「按从左到右的顺序给每盆花浇水;喷壶要在每朵花上方 1–5 厘米处停住再浇,这样更均匀。」(如下图)
对人来说这很自然,但对机器人来说,难点不在「浇水」本身,而在指令里隐含了大量空间约束:既有 定性 的(从左到右、在上方),也有 定量 的(1–5 厘米)。在杂乱的开放世界场景中,让机器人稳定遵循这些约束,哪怕对目前最先进的视觉 - 语言 - 动作模型(VLA)也依然是挑战。
一个直接的突破口是:让视觉 - 语言模型(VLM)生成一条满足这些空间约束的 3D 位置序列 —— 空间轨迹(Spatial Trace) 。它相当于一座桥梁:既能把「指令在 3D 空间中如何被理解与执行」的过程表达清楚,也能进一步用来指导机器人生成可执行的动作轨迹。但空间轨迹生成本质上非常困难,因为它需要在 3D 场景里进行 多步、带真实尺度约束的推理 ,并且每一步都要同时具备两种关键能力:
3D 空间指代 :理解指令中的 各种空间关系 ,并在 3D 场景中 准确指代定位相关物体 (例如按「从左到右」依次找到每盆花)。
3D 空间度量 :理解现实世界的 绝对尺度并做计算 (例如估计花的物理高度,确定其上方 1–5 厘米对应的具体 3D 位置)。
遗憾的是,现有很多 VLM 工作主要集中在 2D 空间推理或 2D 视觉轨迹生成:一方面往往 弱化了轨迹生成最关键的「多步推理」过程,尤其缺少对中间关键对象的显式建模 ,容易导致结果次优;另一方面输出多停留在 2D 像素坐标, 缺乏 3D 指代定位与 绝对尺 度理解 。这也造成了 2D 视觉轨迹与 3D 空间轨迹之间的根本鸿沟。
为了解决这一问题,北京航空航天大学、北京智源人工智能研究院、北京大学等机构联合推出了具备 3D 空间理解与推理能力的多模态大模型 ——RoboTracer。RoboTracer 通过 全参数微调(SFT) 强化空间信息的精准理解(空间感知 / 度量 / 指代),并进一步用 强化学习微调(RFT) 提升推理与泛化能力,最终在 开放世界场景中实现可用的 3D 空间轨迹生成 。

论文链接:https://arxiv.org/pdf/2512.13660
论文标题:RoboTracer: Mastering Spatial Trace with Reasoning in Vision-Language Models for Robotics
项目主页:https://zhoues.github.io/RoboTracer/
代码仓库:https://github.com/Zhoues/RoboTracer
评测链接:https://huggingface.co/datasets/JingkunAn/TraceSpatial-Bench
下面是真机实拍的机器人浇花过程,包含 多步、带真实尺度约束的推理 :
SFT 训练下的 RoboTracer 在空间理解 / 空间度量 / 空间指代任务中达到了 79.1% 的平均成 功率 ,刷新了当前最先进水平。而在研究者提出的高难度空间轨迹生成任务评测基准 TraceSpatial-Bench 上,RFT 训练后的 RoboTracer 更是 领先所有其他模型 ,比 Gemini-2.5-Pro 高出 36% 的平均准确率 ,优势显著。
更关键的是,RoboTracer 直接做到「开箱即用」: 可以 灵活集成到不同类型的机器人 上, 比如 UR5 机械臂、G1 仿人机器人等,在真实环境中完成 复杂、动态、多步骤任务, 让机器人真正做到「听得懂、看得清、动得准」。
RoboTracer 是什么?

RoboTracer 是一个 三维空间理解与推理能力 的多模态大模型,其拥有单独的图片编码器和 支持任意多几何输入(绝对深度图,相机内参)的空间编码器 。该模型具备较完备的空间感知推理能力,不仅仅可以回答各种 空间感知类问答 ,无论是「哪个物体在左边?」这样的定性问题,还是「这个物体高度是多少?」这样的定量问题,并且还预测当前场景的尺度缩放因子;更厉害的是,它还可以基于 3D 空间指代和 3D 空间度量进行, 复杂的组合式推理 ,最终 准确生成精确的空间轨迹 (如上图,逐一从左到右确定每一盆花的 3D 位置及其高度)。
RoboTracer 的核心是什么?
为什么相较于以往的方法,RoboTracer 不仅可以精确的感知空间,而且又可以根据多个空间关系组合泛化进行带真实尺度约束的推理呢?其关键因素在于以下几点:
解耦 (u, v, d) 表达增强多任务学习
传统方法直接回归 (x, y, z) 坐标,往往要求模型强行根据单目图片预测复杂的相机几何信息(比如相机内参),导致训练难、精度低。RoboTracer 提出了一种符合具身场景的解法: 利用 (u, v, d) 进行解耦表达 。这种表示法利用图像像素 (u, v) 和深度 d,结合已知的相机内参,轻松换算真实 3D 坐标。其核心优势在于:
1. 降低学习门槛 :不用让 VLM「硬学」复杂的相机几何信息,训练更简单,精度也更高。
2. 数据复用能力更强 :(u, v, d) 很容易投影到更低维的任务上 —— 去掉 d 就变成 2D 轨迹;只保留起点 / 终点,又能构造成 2D/3D 的空间指代数据。
通用空间编码器与尺度解码器提升绝对尺度感知
想要精准定位物体、测量距离,模型必须理解「真实世界的尺寸」。但很多只用 RGB 训练的 VLM 缺少绝对尺度概念 ,因此距离 / 尺寸容易估不准。为了解决这一点,研究者加入两个关键模块:
1. 尺度解码器 :将 token 直接回归 成一个数值尺度因子,把「尺度不变的特征」与「真实世界的绝对长度」对应起来。相比分类损失, 用回归损失监督 更能提升对三维真实尺度的感知。
2. 通用空间编码器 :借助前馈式三维度量几何模型提供的 强几何先验 ,显著增强模型的空间与尺度理解。它还能 按需融合 不同几何信息 (如相机内参、位姿、深度):几何信息越多,空间表示越精细。该设计带来两点好处:(1) 训练更灵活 :通过灵活输入增强,把不同数据集中带尺度标注的信息用起来,提升空间学习效果(2) 推理更自适应 :无需重新训练或改结构, 就能融合当前可用的几何信息。
SFT 增强感知,RFT 搭配过程奖励提升推理
RoboTracer 采用两阶段训练策略,其中 SFT 阶段针对性地提升模型的单步 3D 空间理解 / 空间度量 / 空间指代能力;RFT 阶段不仅关注最终轨迹结果的奖励,还创新性地设计度量敏感过程奖励,这些奖励函数能够显式监督轨迹生成中涉及的关键中间感知步骤(如 3D 指代、3D 度量和尺度预测)的质量。最终,模型增强了 多步、带真实尺度约束的推理 ,实现了对复杂空间约束任务的空间轨迹规划。
提出 TraceSpatial 数据集
教一个多模态大模型从0到1学会生成空间轨迹