语义
描述
语义是让每个高斯的语言特征能够与文本类别实现对齐。
文章
分类
类别
因此,研究团队采用更符合实际应用的训练方式:训练阶段只使用二值占用标签,仅告诉模型“这里是否有物体”,而不提供具体语义类别。
文章
在开放词汇查询中,模型还能根据背包、自行车、窗帘、鞋子、纸张、垃圾桶等自然语言类别,在三维空间中定位对应物体,而这些类别并不一定属于Occ-ScanNet固定定义的11个语义类别。
文章
该研究在Occ-ScanNet数据集验证:每个样本对应一个局部3D空间,模型需要同时预测空间占用与语义类别。
文章
理解
LegoOcc同时提升几何结构预测和开放词汇语义理解能力,尤其mIoU从9.25提升到21.05,说明模型的语义识别能力获得了较大突破。
文章
LegoOcc通过“二值占用学习几何+二维开放词汇模型提供语义监督”的方式,使未来构建大规模三维语义理解系统的成本显著降低。
文章
这说明,LegoOcc在“空间哪里被占据”这一核心几何问题上已经非常强,而开放词汇3D语义理解本身仍然是一个极具挑战性的任务。
文章
特征对齐
伯努利方法虽然引入了透明度,性能提升至46.65的交并比与17.25的平均交并比,但在多个高斯分布重叠时,透明度仍然容易被平均化,导致语义特征对齐不稳定。
文章
标签
模型不再是“先预测三维结构、再额外贴语义标签”,而是在每个三维高斯中同时保存“它在哪里”以及“它可能代表什么”。
文章
研究团队并没有使用人工标注的三维语义标签,而是借助已经训练好的开放词汇二维分割模型,从图像中提取语言对齐的语义特征。
文章
虽然LegoOcc的mIoU仍低于RoboOcc,但它在完全不使用3D语义标签的前提下,实现了超过所有闭集方法的59.50IoU。
文章
虽然训练阶段不使用语义体素标签,但在评估阶段,仍然会利用语义标签检验模型是否能够正确识别空间中的物体类别。
文章
这项研究关注更接近真实应用的问题:仅使用一张普通室内RGB图像,不依赖多视角图像或激光雷达,也不使用3D语义标签,依然能够预测空间中的占用情况,并进一步支持基于自然语言的开放类别查询。
文章
标注
如果希望模型真正理解三维空间,通常需要昂贵的3D语义标注,即在空间中逐点或逐体素标注每个位置属于什么物体。
文章
相比二维图像标注,三维语义标注需要在空间中逐点或逐体素进行类别标注,工作量更大,而室内物体类别又高度长尾,很难依靠人工穷尽。
文章
体素标注
港科广陈昶昊团队:只用一张RGB图像,让机器读懂室内3D空间丨CVPR20262026年05月12日15:43雷锋网LegoOcc:无需语义体素标注,也能识别开放类别。
文章
语义体素标注、仅使用几何占用标签的情况下,模型依然能够实现高质量的室内单目开放词汇3D占用预测。
文章
这些闭集方法使用完整语义体素标注训练,其中表现较强的RoboOcc达到56.48IoU与47.76mIoU。
文章
效果
LegoOcc通过“二值占用学习几何+二维开放词汇模型提供语义监督”的方式,使未来构建大规模三维语义理解系统的成本显著降低。
文章