当数据成为关键变量,具身智能进入基建时代

数据采集只是起点,数据精炼、模型迭代与场景闭环才是核心能力。
界面新闻记者 | 查沁君
界面新闻编辑 | 文姝琪
随着 具身智能的核心瓶颈逐渐指向数据,互联网大厂的入场方式也从技术探索转向更直接的基础设施布局。
“2018年到2026年,整个( 具身智能 )产业规模扩大了将近5倍。” 京东集团技术委员会主席、京东云总裁曹鹏 称, 当前具身领域硬件进展迅速,但模型能力仍明显滞后,“特别是在机器人大脑模型上面还有很大的短板,本质原因是缺少数据”。
曹鹏进一步指出,训练具备泛化能力的具身模型至少需要千万小时量级数据,而目前行业可获得的数据规模仍停留在几十万小时。这种差距直接限制了模型跨场景能力,也让具身智能难以从展示走向实用。
在接受界面新闻等媒体采访时, 京东 集团副总裁、京东云基础云总经理 龚义成 也提到 ,传统具身机器人训练主要依赖遥操,“数据很难产生规模,采集成本也非常贵,而且大部分没有办法在真实场景来进行”,这成为制约模型能力扩展的重要瓶颈。

京东云自研的可穿戴式超高清采集终端JoyEgoCam / 官方供图

基于这一判断,京东于日前推出其 自研的可穿戴式超高清采集终端JoyEgoCam,可在物流、零售、医疗、家庭等多种场景下“即戴即采”,并 声称 两年内采集超过1000万小时真实场景第一视角数据,叠加百万小时机器人本体数据。
与多数企业从模型或本体切入不同,京东将切口放在数据与基础设施层面,试图通过规模化数据供给推动具身智能从实验室走向真实场景。
这一布局背后,是行业正在形成的共识:具身智能正从“能力验证”迈向“规模复制”,而数据成为新的关键约束。
京东探索研究院具身智能首席专家林倞从技术路径上进一步解释了这一思路。他表示,大模型时代已经验证“Scaling Up”(规模效应)的有效性,而具身智能连接物理世界,对数据规模依赖更强。
在他看来, 具身模型不仅需要视觉理解,还要完成动作规划与执行,因此需要分层数据结构。他将具身数据划分为三层:底层是千万小时级第一视角视频数据,中间层是人机对齐数据,顶层则是本体遥操数据,并认为这种“数据金字塔”是模型能力提升的关键基础。
当数据成为关键变量,具身智能的竞争重心也开始从单点技术转向基础设施能力。
就在京东 发布采集终端同一天,智元推出数据服务平台,小米披露机器人与工厂数据积累。 这些动作 背后, 都 指向同一趋势——具身智能竞争正在进入数据基础设施阶段,核心不只是采集规模,而是数据定义权与生态主导权。
但 具身智能的数据并非“越多越好”,而是呈现出明显的价值金字塔结构。 大量原始采集数据在未经处理前,难以直接用于训练,重复动作、失败无标注、传感器噪声等问题普遍存在。
清华大学丁贵广团队《具身智能数据采集与处理综述》 也 指出,超过90%的采集数据在精细化处理前难以直接用于模型训练,真正的壁垒不是采集规模,而是高价值数据的精炼能力。
这一趋势也改变了具身智能竞争逻辑。不同于自动驾驶拥有天然“影子模式”,机器人数据采集必须依赖真实商业场景承担成本。京东仓储、小米工厂等场景因此成为关键数据来源,缺乏场景的数据服务商则面临高成本压力。
与此同时,失败案例数据 也 被认为 是 具 有 价值的训练样本,但这类数据难以自动回流,谁能建立“数据—模型—数据”的闭环,谁就能形成更高技术壁垒。
“ 今年 行业对数据需求正在快速上升,可以称之为具身数据的元年 。 ”龚义成 对界面新闻等媒体称 ,过去头部企业拥有两三万条遥操数据已属规模较大,而当前行业开始向百万小时级数据迈进。他指出,企业不仅关注数据量,还更加重视场景丰富度与标注精度,这些因素都会直接影响模型泛化能力。
从产业格局看,具身智能正在形成多方竞争:一类企业尝试构建统一数据平台,希望通过接口与格式标准掌控生态;另一类企业依托自有场景积累数据,形成封闭壁垒;还有企业发展合成数据技术,试图降低真实采集成本。
不同路线之间既存在合作空间,也存在替代关系,尤其在数据格式与标准层面,谁的数据结构成为行业默认标准,谁就可能掌握生态主导权。
在全球层面,具身智能竞争同样呈现分化趋势。业内普遍认为,中国企业在场景与供应链方面具备优势,而海外公司在模型与仿真技术方面更具积累。龚义成也表示,中美具身智能仍处于早期阶段,“大家都处在比较早期阶段,各自不同的优势点反馈到具身行业里有一些差异,最后彼此之间都会有交叉”。
随着越来越多企业围绕数据基础设施展开布局,具身智能竞争正在从“谁先造出机器人”,转向“谁能构建数据飞轮”。在这一逻辑下,数据采集只是起点,数据精炼、模型迭代与场景闭环才是核心能力。