登录

MIT融合新旧视觉技术,破解救援机器人导航瓶颈,无需标定,数秒生成3 D场景


速读:问题出在AI模型生成的子地图往往带有几何形变。 在那些“AI之前的年代”,研究者早已提出了关于图像对齐、形变补偿等经典方法。
2025年11月11日 21:59

(来源:MIT News) (来源:MIT News) 在一场矿难救援中,时间意味着生命。想象一台搜救机器人在部分坍塌的矿井中穿行:浓烟、碎石、扭曲的金属梁。它必须在险象环生的环境中迅速绘制地图,识别路径,并精准定位自己的位置。

但要做到这一点并不容易。即便是当前最强大的人工智能视觉模型,一次也只能处理少量图像。在真实灾难救援场景中,时间分秒必争,搜救机器人必须快速穿越大范围区域,并在几分钟内处理成千上万张图像,才能完成任务。这种“算不过来”的限制,使得 AI 在真实世界的救援任务中显得力不从心。

为解决这一难题,麻省理工学院(MIT)的研究人员 借鉴了最新人工智能视觉模型与经典计算机视觉的思想,开发出一套能在数秒内完成三维重建的新系统 。

这套系统不依赖标定摄像头,也不需要专家反复调参,却能快速拼接出复杂环境的高精度 3D 地图。对于救援机器人而言,这意味着在废墟或矿井中,“看清楚”的速度将以倍数提升。

拼接难题与对齐破局

机器人导航领域有个绕不开的难题,叫  SLAM(Simultaneous Localization and Mapping,同时定位与地图构建) 。顾名思义,机器人必须一边绘制环境地图,一边确定自己在地图上的位置。

传统的 SLAM 依赖复杂的数学优化和精确的相机标定,往往在光线不足、场景复杂的情况下失效。于是研究者们转向机器学习模型,希望 AI 能从海量数据中“学会看图识地”。

可问题在于: 这些模型的吞吐量太低 。即使是最先进的系统,一次也只能处理几十帧图像。而要让机器人穿越工厂、仓库,或废墟中的大片区域,就需要在短时间内分析数千张图像,这是目前 AI 无法承受的计算负载。

MIT 的解决方案是 化整为零 。他们让系统不是一次性重建整个场景,而是分批生成多个“子地图”(submaps),再通过算法把这些子地图拼接起来。这样一来,模型每次仍只需处理少量图像,却能通过拼接快速还原大场景。

听上去很简单,但研究者最初尝试时——失败了。

主导这项研究的博士生 Dominic Maggio 回忆说:“我们一开始以为,只要像传统方法那样,通过旋转和平移就能把子地图拼起来。但结果并不理想。”

问题出在 AI 模型生成的子地图往往带有 几何形变 。例如,一面本应笔直的墙在重建后可能出现轻微弯曲;房间的角度可能被拉伸。这些误差会让原本应当对齐的子地图错位。

于是,Maggio 开始翻阅上世纪 80、90 年代的计算机视觉论文。在那些“AI 之前的年代”,研究者早已提出了关于图像对齐、形变补偿等经典方法。

结合这些思路,团队意识到:他们需要一个 更灵活的数学框架 ,去描述和校正子地图之间的变形关系。

主题:机器人