具身智能的「GPT时刻」？高德连发两个全面SOTA的ABot具身基座模型

速读：这两款模型各自在其领域补齐了行业能力缺口，ABot-M0让不同形态的机器人都能基于统一底座完成精细操作，ABot-N0则让机器人首次具备在真实开放环境中执行长程复杂任务的能力。但更重要的不是这些数字，而是具身智能首次在操作和导航两条核心链路，分别拥有了统一底座。语言模型之所以能够演化出一种通用能力底座，是因为它们具有统一表示（token）、统一架构（基本基于Transformer）以及可规模化的预训练。机器人面对的是连续、高维、动态变化的三维物理空间，它不仅要看见，还要理解空间结构、物体关系与可行动区域。

2026年02月12日 18:08

过去几年，大模型把自然语言处理彻底重塑了。GPT 出来之前，NLP 领域的状态是：每个任务一套模型，每个场景一批数据，每个公司一条流水线，互不通用，边界清晰。GPT 之后，这套逻辑被一个预训练底座 + 任务微调的范式整个替换掉了。

机器人行业今天的处境，像极了 2019 年的 NLP。

不同厂商的不同形态机器人，用着各自独立的动作表示体系，数据互不兼容，模型无法复用。做一个新场景，基本上要从头搭一套…… 当模型与数据被深度绑定在特定形态和特定场景中，机器人所展现出的能力往往更像是一种精心调校的表演，而不是可以迁移、可以泛化的通用技能。

一个只能在特定场景跳舞的机器人，和一个可以在真实生活帮你占座的机器人，你会选哪个？

近日，阿里巴巴集团旗下高德的 ABot 系列具身基座模型的发布，终于让行业看到了机器人进入开放世界的可能。

ABot 系列包括两款基座模型： ABot-M0、ABot-N0 ，前者负责机器人的「手」（操作），后者负责机器人的「腿」（导航）。

这两款模型各自在其领域补齐了行业能力缺口，ABot-M0 让不同形态的机器人都能基于统一底座完成精细操作，ABot-N0 则让机器人首次具备在真实开放环境中执行长程复杂任务的能力。它们在具身操作和具身导航做到全面 SOTA，霸榜了 10 项全球权威评测。

但更重要的不是这些数字，而是具身智能首次在操作和导航两条核心链路，分别拥有了统一底座。开发者不需要再为每个机器人、场景重做一套系统，而是基于这两个底座去做进一步研究。

如果说 GPT 的出现让 NLP 从任务专用模型转向通用基座，那么 ABot 系列的发布，标志着具身智能正在经历同样的范式跃迁，从为每个机器人、每个场景定制专用系统，转向用统一模型覆盖多样化任务的工程级底座时代。

具身智能，为什么迟迟没有 GPT 时刻

语言模型之所以能够演化出一种通用能力底座，是因为它们具有统一表示（token）、统一架构（基本基于 Transformer）以及可规模化的预训练。从而形成可复用、可迁移、可持续进化的能力底座。

相比之下，具身智能长期缺失的，恰恰是这种「统一」。过去几年，行业始终困在几个结构性瓶颈之中。

首先是数据层面的差异。语言模型的训练数据来自互联网文本，规模庞大、结构却很统一，通过统一的 token 表示实现规模化训练，因此可以在同一架构上持续堆数据、堆算力。而机器人的训练数据则是操作轨迹、导航路径和三维场景信息，这类数据采集成本高、格式各异、天然碎片化，远不像文本那样可以直接汇聚成统一语料，更重要的是他们的本体还不同，机械臂、机器狗和人形机器人的数据无法通用。

本质在于动作表示和空间建模的不统一。在具身领域，不同机器人使用不同的控制频率、坐标体系和动作表达方式：有的以关节角为核心，有的基于末端执行器位姿，有的采用绝对坐标。这些差异看似只是工程实现方式的不同，实际上却决定了数据能否共享、模型能否迁移。一套模型在某种硬件形态上训练完成，并不意味着可以直接迁移到另一平台，因为动作空间本身并不兼容。

动作表示难以统一，使得行业即便积累了大量轨迹数据，也难以整合为规模化训练的基础；与此同时，空间理解能力的不足进一步加剧了这一问题。机器人面对的是连续、高维、动态变化的三维物理空间，它不仅要看见，还要理解空间结构、物体关系与可行动区域。缺乏稳定的三维语义建模能力，使模型在复杂或长程任务中容易失效，鲁棒性不足。

此外，对具身来说非常重要的导航能力仍然高度碎片化。相比固定工位上的机械操作，移动意味着要面对动态变化的环境、随机出现的干扰，以及跨场景的任务切换。无论是跨楼层送物、在商场中跟随服务，还是城市级长程导航，导航都是具身智能迈向通用行动能力的前提。

但现实是，很多主流方法离散且碎片：一套模型用于位置导航，另一套模型用于语义导航，缺什么再补充什么。每个任务都能在局部指标上取得一定成绩，却难以形成统一能力框架，机器训练和适用也就无从谈起。

也正是在这样的背景下，我们很难看到具身智能可以像语言模型一样拥有可复用的具身底座。

从碎片化定制到底座化复用

而高德天然具备解决这些问题的能力，地图与位置服务多年沉淀的大规模真实 3D 场景与空间语义资产，恰恰是具身导航中最稀缺的资源；而长期面向亿级用户的工程落地经验，则意味着它更熟悉如何把系统真正跑在真实环境里。

ABot-M0：先动作语言统一，再谈复用

具身操作的核心难题，用一句话说就是：怎么让同一套模型，驾驭形态各异的机器人，完成各种各样的操作任务。

ABot-M0 的解法是用「动作语言统一」（把异构机器人的动作转换为统一表示）降低数据割裂与训练成本。为了实现这一目标，ABot-M0 从「数据统一 — 算法革新 — 空间感知」三个方面进行了系统性重构。

主题：模型|数据|具身智能