CVPR Highlight｜让无人机学会自己认路+锁位目标，国防科大给出一套新解法

速读：左下角小窗口“Queryview”为无人机捕获的实时视频流，“Renderview”则是系统根据当前位姿估计值从三维地图中同步渲染生成的地理参考视图，记录了从傍晚到入夜的剧烈光照变化过程。 PiLoT在嵌入式平台（如NVIDIAJetsonOrin）上即可达到25FPS的高性能，在复杂真实场景下的定位精度与鲁棒性均达到当前最先进水平，成功解决了大规模场景下跨视角匹配与零样本泛化的难题。当前的无人机地理定位技术，无论是用于自主导航还是对地目标侦察，大多遵循一套约定俗成的系统架构：先依靠视觉里程计（VIO）和卫星信号（GNSS）算好自身位置，再挂载一台激光测距仪去反推地面目标的坐标。

2026年04月11日 09:14

在复杂、甚至是 GNSS（全球导航卫星系统）拒止的环境中，如何让仅搭载单目相机的无人机实现精准、无漂移的自我与目标定位？

国防科技大学虚拟现实与视觉计算团队（SAW Lab）联合多所高校推出无人机实时地理定位系统「 PiLoT 」，首次实现仅依靠单目 RGB 序列即可在 GNSS 拒止环境下完成无人机 6-DoF 位姿及任意目标的实时、无漂移地理定位。PiLoT 在嵌入式平台（如 NVIDIA Jetson Orin）上即可达到 25 FPS 的高性能，在复杂真实场景下的定位精度与鲁棒性均达到当前最先进水平，成功解决了大规模场景下跨视角匹配与零样本泛化的难题。该研究成果被 CVPR 2026 接收为 Highlight 论文。

PiLoT 在10km飞行轨迹中的实时无漂移表现。画面主视图展示了无人机在基于实景三维模型构建的数字孪生场景中的飞行轨迹，PiLoT系统解算的实时轨迹（ES_TRACK，绿色光带）与RTK记录的真值航迹（GT_TRACK，粉色光带）高度重合，直观呈现了系统在复杂地理环境下的航迹定位效果。左下角小窗口“Query view”为无人机捕获的实时视频流，“Render view”则是系统根据当前位姿估计值从三维地图中同步渲染生成的地理参考视图，记录了从傍晚到入夜的剧烈光照变化过程。在长达13分钟、航程超过10公里的飞行测试中，PiLoT维持了1.374米的均值定位误差，并保持25~30 FPS的实时推理速度。

论文标题：PiLoT: Neural Pixel-to-3D Registration for UAV-based Ego and Target Geo-localization

收录会议：CVPR 2026 Highlight

所属机构：国防科技大学，浙江大学，西湖大学，杭州电子科技大学

论文链接：https://arxiv.org/abs/2603.20778

项目主页：https://nudt-sawlab.github.io/PiLoT/

研究动机：无人机定位如何摆脱 GNSS 依赖？

怎样的无人机地理定位系统才算理想？通常而言，它至少需要满足三个核心标准：

全局高精度（Drift-free）：能够有效克服传统里程计在长距离、大范围飞行中的累积误差，实现无漂移的一致与精准；

全天时高鲁棒（Long-term）：面对跨时段的光照剧变，以及剧烈机动带来的运动模糊与大视角变化，系统依然能稳定追踪不崩溃；

低算力与载荷门槛（Real-time）：满足严苛的 SWaP（体积 / 重量 / 功耗）限制，无需挂载重型传感器，在受限的边缘平台（如 Jetson）实时运行。

当前的无人机地理定位技术，无论是用于自主导航还是对地目标侦察，大多遵循一套约定俗成的系统架构：先依靠视觉里程计（VIO）和卫星信号（GNSS）算好自身位置，再挂载一台激光测距仪去反推地面目标的坐标。这种架构存在两个弱点：前者高度依赖外部信号，后者则极度依赖重型主动载荷。

直觉告诉我们，这或许并非最佳解法：既然无人机搭载了视觉传感器，如果我们拥有一张已知的三维地图，它能否像人类一样，直接实现 “看图认路”？可否摆脱对 GNSS 的依赖，实现真正无漂移的无人机视频定位？为了回答这一问题，国防科技大学 SAW Lab 团队将目光投向了像素级的 3D 配准，试图从纯视觉视角寻找答案。

核心洞察与解决方案：PiLoT

回看传统的 VIO 系统，它主要通过比较前后两帧图像来计算相对位移。这类似于航位推算，飞行距离越远，微小的测量误差累积得就越多。

研究团队的思路是弱化相对观测，直接建立绝对锚点。通过将每帧 2D 视频像素直接映射到带有绝对坐标的 3D 地理模型上，切断误差的累加路径。这引出了 PiLoT 框架的核心理念：将无人机自定位与目标定位统一重构为像素到 3D 的配准问题。只要将实时画面与三维世界精准对齐，相机的六自由度位姿以及目标的真实地理坐标便能作为联合解自然得出。

理论表明，通过实时画面匹配 3D 地图可以获得无漂移的绝对坐标。但要让这一框架真正满足低算力门槛与全天时鲁棒性，在方法设计上还面临两个核心的技术挑战：

第一，算力如何高效分配？建立 2D 像素到 3D 大规模场景的密集对应关系，意味着地图渲染与特征匹配将消耗巨大的计算资源。若采用 “渲染一帧、定位一帧” 的串行处理模式，轻量级机载平台显然无法满足无人机的实时控制需求。如何设计高效的计算流分配与异步调度机制，是该框架必须跨越的计算瓶颈；

第二是深度网络如何学习几何本质？当前主流的视觉匹配模型多基于地面或室内数据集训练。然而，真实的无人机作业环境极其复杂，不仅存在高空俯视的视角与尺度剧变，还伴随着跨时段的光照与天气干扰。这种从地面到复杂高空的跨度，产生了巨大的域鸿沟（Domain Gap）。面对这种差异，现有模型极易暴露纹理偏置的软肋，它们倾向于过拟合地面训练集中特定的表观纹理，一旦遭遇无人机视角的切换与环境外观的改变，原先依赖的特征就会失效，导致定位鲁棒性大幅下降。因此，如何克服这种偏置，获取一个无惧真实环境干扰的无人机专属特征提取器，便是跨越域鸿沟的关键。

从基于 3D 配准的理论重构，到跨越算力与域鸿沟的双重危机，PiLoT 框架给出了一套优雅的解法。具体而言，其系统架构与方法设计包含以下三大核心创新：

1. 渲染 - 定位双线程解耦：突破线性时序瓶颈

为了打破线性时序瓶颈，PiLoT 摒弃了逐帧渲染、逐帧定位的低效串行模式。研究团队通过将渲染与定位解耦，构建了两个高并发的独立线程。其中，渲染线程负责在后台动态生成带有地理参考的合成视图，而定位线程则专注于在特征空间内将实时视频流与合成视图进行快速配准。这种双线程架构不仅确保了每次定位查询都能获得动态更新的地理锚点约束，还在显著提升系统吞吐量的同时，实现了真正意义上的无漂移连续定位。

主题：系统|目标