具身智能的「GPT时刻」?高德连发两个全面SOTA的ABot具身基座模型
过去几年,大模型把自然语言处理彻底重塑了。GPT 出来之前,NLP 领域的状态是:每个任务一套模型,每个场景一批数据,每个公司一条流水线,互不通用,边界清晰。GPT 之后,这套逻辑被一个预训练底座 + 任务微调的范式整个替换掉了。
机器人行业今天的处境,像极了 2019 年的 NLP。
不同厂商的不同形态机器人,用着各自独立的动作表示体系,数据互不兼容,模型无法复用。做一个新场景,基本上要从头搭一套…… 当模型与数据被深度绑定在特定形态和特定场景中,机器人所展现出的能力往往更像是一种精心调校的表演,而不是可以迁移、可以泛化的通用技能。
一个只能在特定场景跳舞的机器人,和一个可以在真实生活帮你占座的机器人,你会选哪个?
近日, 阿里巴巴集团旗下高德的 ABot 系列具身基座模型 的发布,终于让行业看到了机器人进入开放世界的可能。
ABot 系列包括两款基座模型: ABot-M0、ABot-N0 , 前者负责机器人的「手」(操作),后者负责机器人的「腿」(导航) 。
这两款模型各自在其领域补齐了行业能力缺口,ABot-M0 让不同形态的机器人都能基于统一底座完成精细操作,ABot-N0 则让机器人首次具备在真实开放环境中执行长程复杂任务的能力。它们在具身操作和具身导航做到全面 SOTA, 霸榜了 10 项全球权威评测 。
但更重要的不是这些数字,而是具身智能首次在操作和导航两条核心链路,分别拥有了 统一底座 。开发者不需要再为每个机器人、场景重做一套系统,而是基于这两个底座去做进一步研究。
如果说 GPT 的出现让 NLP 从任务专用模型转向通用基座,那么 ABot 系列的发布,标志着具身智能正在经历同样的范式跃迁,从为每个机器人、每个场景定制专用系统,转向用统一模型覆盖多样化任务的工程级底座时代。
具身智能,为什么迟迟没有 GPT 时刻
语言模型之所以能够演化出一种通用能力底座,是因为它们具有统一表示(token)、统一架构(基本基于 Transformer)以及可规模化的预训练。从而形成可复用、可迁移、可持续进化的能力底座。
相比之下,具身智能长期缺失的,恰恰是这种「统一」。过去几年,行业始终困在几个结构性瓶颈之中。
首先是数据层面的差异。语言模型的训练数据来自互联网文本,规模庞大、结构却很统一,通过统一的 token 表示实现规模化训练,因此可以在同一架构上持续堆数据、堆算力。而机器人的训练数据则是操作轨迹、导航路径和三维场景信息,这类数据采集成本高、格式各异、天然碎片化,远不像文本那样可以直接汇聚成统一语料,更重要的是他们的本体还不同,机械臂、机器狗和人形机器人的数据无法通用。
本质在于动作表示和空间建模的不统一。在具身领域,不同机器人使用不同的控制频率、坐标体系和动作表达方式:有的以关节角为核心,有的基于末端执行器位姿,有的采用绝对坐标。这些差异看似只是工程实现方式的不同,实际上却决定了数据能否共享、模型能否迁移。一套模型在某种硬件形态上训练完成,并不意味着可以直接迁移到另一平台,因为动作空间本身并不兼容。
动作表示难以统一,使得行业即便积累了大量轨迹数据,也难以整合为规模化训练的基础;与此同时,空间理解能力的不足进一步加剧了这一问题。机器人面对的是连续、高维、动态变化的三维物理空间,它不仅要看见,还要理解空间结构、物体关系与可行动区域。缺乏稳定的三维语义建模能力,使模型在复杂或长程任务中容易失效,鲁棒性不足。
此外,对具身来说非常重要的导航能力仍然高度碎片化。相比固定工位上的机械操作,移动意味着要面对动态变化的环境、随机出现的干扰,以及跨场景的任务切换。无论是跨楼层送物、在商场中跟随服务,还是城市级长程导航,导航都是具身智能迈向通用行动能力的前提。
但现实是,很多主流方法离散且碎片:一套模型用于位置导航,另一套模型用于语义导航,缺什么再补充什么。每个任务都能在局部指标上取得一定成绩,却难以形成统一能力框架,机器训练和适用也就无从谈起。
也正是在这样的背景下,我们很难看到具身智能可以像语言模型一样拥有可复用的具身底座。
从碎片化定制到底座化复用
而高德天然具备解决这些问题的能力,地图与位置服务多年沉淀的大规模真实 3D 场景与空间语义资产,恰恰是具身导航中最稀缺的资源;而长期面向亿级用户的工程落地经验,则意味着它更熟悉如何把系统真正跑在真实环境里。
ABot-M0:先动作语言统一,再谈复用
具身操作的核心难题,用一句话说就是:怎么让同一套模型,驾驭形态各异的机器人,完成各种各样的操作任务。
ABot-M0 的解法是用「 动作语言统一 」(把异构机器人的动作转换为统一表示)降低数据割裂与训练成本。为了实现这一目标,ABot-M0 从「 数据统一 — 算法革新 — 空间感知 」三个方面进行了系统性重构。