RSS-2026|港科大（广州）开源首个无需训练的开放词汇3 D占据地图构建系统

速读：然而，现有三维占据预测方法仍高度依赖大规模三维占据标注、语义标注以及精确相机位姿等训练数据。

2026年05月15日 10:06

从第一视角观测中持续重构三维世界，并理解空间中的几何结构与开放语义信息，是机器人具身感知领域的核心问题。语义占据预测（Semantic Occupancy Prediction）通过将空间划分为三维体素网格，并为每个体素估计 “空闲、占据、未知” 状态及其语义类别，为机器人的空间推理、导航避障与交互操作提供统一的基础场景表达。

然而，现有三维占据预测方法仍高度依赖大规模三维占据标注、语义标注以及精确相机位姿等训练数据。在真实开放环境中，这些假设往往难以成立：当机器人进入全新场景时，通常不存在预先标注好的三维几何与语义真值，也缺乏可靠的全局相机轨迹，更不可能针对每个新环境重新采集数据并训练模型。因此，构建具备强泛化能力、能够在开放真实环境中实现语义占据预测的感知系统，已成为推动具身智能体从 “被动感知” 迈向 “主动理解” 的关键基础。

近期，香港科技大学（广州）陈昶昊教授团队联合穆罕默德・本・扎耶德人工智能大学（MBZUAI ）研究者提出 Fr ee Occ 。该工作已被机器人领域旗舰会议 Robotics: Science and Systems (RSS 2026) 接收，源代码和数据集均已开源。

FreeOcc 是首个无需训练（training-free）的开放词汇三维占据预测系统，仅基于单目或 RGB-D 图像序列，在线构建全局一致的开放词汇三维占据地图。在 EmbodiedOcc-ScanNet 数据集上，FreeOcc 无需任务特定训练，单目版本达到 31.29 IoU / 13.86 mIoU，RGB-D 版本达到 34.40 IoU / 15.84 mIoU，相较现有自监督学习方法在 IoU 与 mIoU 指标上均实现超过两倍提升。在团队进一步构建的跨数据集泛化基准 ReplicaOcc 上，FreeOcc 的 RGB-D 版本取得了 55.65 IoU / 20.90 mIoU 的性能，而现有监督与自监督方法几乎无法实现零样本泛化。

论文标题： FreeOcc: Training-Free Embodied Open-Vocabulary Occupancy Prediction

论文地址：https://arxiv.org/abs/2604.28115

项目主页：https://the-masses.github.io/freeocc-web/

项目代码：https://github.com/the-masses/FreeOcc

数据链接：https://huggingface.co/datasets/the-masses/ReplicaOcc

实现具身场景中 “无需训练” 的开放词汇语义占据预测，其核心难点在哪里？

近年来，基于端到端模型的语义占据预测在引入占据真值监督后，已经能够在特定场景中取得较高的几何与语义精度。然而，在 LegoOcc (CVPR-2026) 提出之前，大多数方法仍只能在预定义的封闭类别集合中进行推理。LegoOcc 将开放词汇能力引入室内单目占据预测，使模型能够响应任意自然语言查询，从而让端到端占据预测具备了初步的语言理解能力。

基于监督学习的端到端占据预测方法依然存在瓶颈：它们高度依赖高质量三维占据真值标注，并且在场景发生变化时泛化能力显著下降。一旦进入未见过的新场景，模型的几何与语义预测性能往往会迅速退化。而当前具备高质量占据真值标注的室内具身场景数据集，仍主要局限于基于 ScanNet 构建的 OccScanNet 与 EmbodiedOcc-ScanNet，数据资源极为稀缺。

因此，监督学习范式下的端到端占据预测，始终面临两座难以跨越的大山：

1. 三维标注成本极高：高质量占据真值需要经过三维重建、体素化与逐体素语义标注等复杂流程，其成本远高于传统二维图像标注，难以大规模扩展。

2. 跨环境泛化能力不足：监督学习方法容易过拟合特定数据集中的相机内参、尺度分布、外观风格以及标签体系。一旦迁移到新的场景或传感器配置，语义与几何预测都会出现明显退化。

FreeOcc 的核心思想正是：不再训练一个面向特定数据集的占据预测神经网络模型，而是构建一个能够让智能体 “无需训练” 即可在任意环境中在线预测占据地图与开放词汇语义的通用感知系统。

作为首个无需训练的通用开放词汇占据预测框架，FreeOcc 在系统设计与评估过程中面临一系列挑战：

1. 3DGS 表达与占据预测目标之间存在较大差异： FreeOcc 采用 SLAM 作为定位与建图主干。现有耦合式 3DGS-SLAM 方法在效率与建图精度之间往往难以兼顾，而继承点云 SLAM 全局一致性的解耦式 3DGS-SLAM，则更关注多视角渲染质量，而非体素空间中的几何一致性。若直接将现有 3DGS 表示用于体素级占据预测，会出现几何边界不稳定、局部结构漂移以及全局拓扑不规整等问题。如何将面向渲染的 3DGS 表达转化为面向空间推理的三维占据表示，成为一个新的研究问题。

2. 缺乏适用基于占据的 SLAM 系统的统一评估机制：基于 SLAM 的系统评估通常需要进行 Sim (3) 或 SE (3) 对齐。然而，在标准 3DGS 优化过程中，系统会联合更新位置 (x,y,z)、旋转、尺度、透明度、颜色、球谐系数（SH）以及 densify / split / prune 等参数。优化后的高斯场几何已经不再是单纯 “由相机位姿驱动” 的刚性或相似结构，而是被优化器不断局部重塑的自由场。当轨迹、尺度或坐标系发生变化时，仅施加群变换虽然在数学上成立，却往往无法完全吸收训练过程中累积的局部补偿误差，通常仍需进一步重优化。

3. 缺乏能够评估开放世界泛化能力的数据基准：目前具身场景中的占据预测评测主要依赖 EmbodiedOcc-ScanNet 与 OccScanNet。然而，OccScanNet 在构建过程中将大量类别合并为 “furniture” 与 “objects”，导致现有评测难以真正量化开放词汇场景中的语义理解能力，尤其难以准确评估开放类别下的 mIoU。仅依赖传统数据集与封闭类别评测，已经无法衡量下一代开放词汇占据系统的真实能力。

为此，FreeOcc 建立了统一框架：既能够继承 SLAM 的全局一致性几何，又能够利用 3DGS 的稠密表达能力，同时融合开放词汇语义理解，并支持可对齐、可泛化、可量化的评估机制。

FreeOcc 框架介绍

FreeOcc 将在线开放词汇占据预测拆解为四层模块化地图表示，并在机器人观测过程中持续进行联合更新：

1. 点云地图：基于视觉定位与建图系统（SLAM），从单目或 RGB-D 图像序列中估计相机位姿，并构建全局一致的半稠密点云。

2. 3DGS 地图：以 SLAM 点云为几何锚点初始化并更新 3D 高斯，通过连续场表示补充稀疏几何结构。

3. 语义地图：利用预训练视觉语言模型提取开放词汇语义特征，并将语言对齐特征关联到高斯基元（Gaussian primitives）。

4. 占据地图：通过概率式高斯至占据（Gaussian-to-Occupancy）投影，将带语义的高斯表达转换为稠密体素占据地图，从而支持任意文本查询。

（1）SLAM 提供全局一致的几何锚点

FreeOcc 首先利用 SLAM 系统处理输入图像序列，实时估计相机位姿并重建三维点云。正文采用 DROID-SLAM，利用其在单目输入条件下较强的全局几何一致性。补充实验中还进一步验证了 MASt3R-SLAM 与 VGGT-SLAM 作为骨干模型时的性能表现。SLAM 输出的相机轨迹与点云，为后续高斯地图提供统一坐标系，为占据地图的长期一致性构建几何基础。

（2）几何一致的 3D 高斯构建

传统 3DGS-SLAM 方法更擅长把图像渲染正确，却未必真正把几何结构建精准。由于 3DGS 的优化目标主要服务于新视角渲染，只要最终渲染出的 RGB 与深度结果足够合理，高斯的位置、尺度与透明度往往可能存在多种等价解。这种几何歧义在新视角合成任务中并不明显，但一旦用于三维占据预测，就会直接导致几何边界模糊、薄结构漂移、全局空间结构不稳定以及体素语义分布不连续等问题。

针对这一挑战，FreeOcc 提出了几何感知初始化（Geometry-aware Initialization，G-ini）与几何锚定高斯更新（Geometrically Anchored Gaussian Updates，GAGU）。不再允许高斯在优化过程中自由漂移，而是始终将高斯的几何中心锚定在 SLAM 重建得到的三维点上。在初始化阶段，系统进一步沿观测射线方向对高斯进行各向异性展开，使其形状天然符合真实成像几何，而不仅仅服务于渲染误差最小化。通过这一设计，FreeOcc 构建出的高斯地图能够实现高质量渲染，更能够保持长期稳定的几何一致性，从而适用于体素级空间推理与开放词汇占据预测。

（3）开放词汇语义关联

FreeOcc 并不训练固定类别的语义分类头，直接利用预训练开放词汇视觉语言模型，从二维图像中提取语言对齐语义特征。系统基于 SLAM 提供的几何对应关系，将二维像素级语义嵌入提升到三维高斯基元（Gaussian primitives）上，从而形成携带语言信息的语义高斯基元（language-embedded Gaussians）。

因此，每一个高斯基元不仅包含位置、尺度、不透明度和颜色等几何与外观属性，同时还携带开放词汇语义特征。当用户输入任意文本类别时，系统即可通过文本编码器生成对应的查询语义向量（query embedding），并与三维空间中的语言特征进行相似度匹配，实现文本驱动的三维语义定位。

（4）高斯基元到占据地图的概率投影

FreeOcc 将连续的高斯地图投影到离散体素网格中，从而生成最终的三维占据地图。对于每一个体素位置，系统都会检索其邻域范围内的高斯体，并根据高斯体的空间支持范围计算该体素被占据的概率。同时，系统通过局部高斯混合模型（Gaussian mixture）的后验责任传播语义特征，使语义信息能够稳定映射到三维体素空间。

最终输出同时包含两个部分：1）几何占据概率，即该体素是否被物体占据；2）开放词汇语义分数，即该体素与任意文本类别之间的匹配程度。FreeOcc 最终生成一张能够被任意自然语言查询的开放词汇三维占据地图。

实验结果

论文从 EmbodiedOcc-ScanNet、ReplicaOcc、三维高斯泼溅 SLAM 主干对比、组件消融实验、开放词汇查询以及真实机器人部署等多个角度，对 FreeOcc 的性能进行了系统验证。

（1）在 EmbodiedOcc-ScanNet 上，无需训练即可超过自监督方法两倍以上

主题：语义|语义占据预测