国内同行羡慕硅谷有钱，硅谷在羡慕宇树有副好身体

速读：机器人「大脑」的本质，是一个多模态模型问题。今天在硅谷逐渐形成了一个共识：数字世界的AGI战局，在硅谷头部公司内部已经被认为基本解决了。机器人的大脑，本质上就是一个多模态模型。机器人领域今天没有足够数量、足够多样、足够好的数据来支撑大规模预训练。整个产业现在最关键的问题，是找到一种新的数据范式——能够批量产生、并能有效用于预训练机器人大脑的数据机制。

2026年05月28日 20:36

宇树真正的价值，不在招股书的财务报表里，而在它在全球具身浪潮里站的那个位置上。

作者｜郑玄

5 月 25 日，宇树科技披露了科创板上会稿，6 月 1 日上会审议。围绕这家公司，讨论从招股书披露的那一刻起就没停过。

研发投入是不是太少、人形机器人出货 5500 台撑不撑得起 420 亿估值、今年 Q1 净利润同比腰斩是不是意味着高增长难以为继、连招股书都承认「大脑」还没做出来——这些质疑逻辑严密，数据扎实。如果把宇树看作一家成熟产业里的成熟公司，每一条都站得住脚。

但问题恰恰出在这里。

研发费用率是不是覆盖了行业平均、毛利率走势是不是稳定、客户结构是不是足够分散、利润是不是能持续兑现——这套尺子，是为一个产业格局已经稳定、技术路线已经收敛、商业模式已经验证的领域准备的。它适合家电、手机甚至新能源汽车——在这些已经「长大」的产业里，公司之间比的是经营效率，财务数字就是答案。

宇树科技｜来自：极客公园可宇树今天所在的赛道，不是这样的赛道。

具身智能是今天全球科技竞争里最激烈的战场之一。OpenAI、Anthropic、特斯拉、Figure、谷歌——硅谷头部玩家正在以每年数以百亿美金的体量加码物理世界 AGI。这是一场技术路线还未收敛、商业模式还没跑通、规模化落地还没开始的早期竞赛。在这种竞赛里，决定胜负的不是哪家公司的研发费用率达标，而是谁先站到了下一轮范式的入口。

把成熟产业的尺子，套在一个仍在剧烈演化的早期竞赛上，得出的判断很可能整个就是错位的。

最近一段时间，极客公园在硅谷和一线具身智能、大模型从业者做了几轮密集交流。从那边带回的信息让我有一个不太一样的判断：今天对宇树的财务审视，大概率用错了尺子。这家公司的真正价值，不在招股书的财务报表里，而在它在全球具身浪潮里站的那个位置上。

硅谷正在悄悄打响具身下半场

今天在硅谷逐渐形成了一个共识：数字世界的 AGI 战局，在硅谷头部公司内部已经被认为基本解决了。下半场是物理世界。

Sam Altman 在多个公开场合给出过类似判断，而 OpenAI 内部正在按这个判断重新调动资源。

最能说明这一点的，其实是 Sora。外界对 Sora 的认知，大多停留在「一个被用来生成短视频和动漫的 AI 产品」。但在 OpenAI 内部，Sora 的定位从来不是视频生成工具——它从第一天起就是「世界模拟器」，目标是建立一个能理解物理世界运行规律的底层模型。视频生成只是这个能力外溢出来的副产品。这一年里，Sora 的 C 端产品线被大幅收缩，腾出的算力和核心研究员被划归到机器人团队，用来训练真正能在物理世界里行动的模型。

Sora｜来自：视觉中国 Anthropic 的动作与 OpenAI 出奇一致。这家此前明确表示不做多模态生成的公司，今年 3 月悄悄组建了机器人团队。换句话说，过去那个「我们只做语言模型」的 Anthropic 已经不存在了。当 OpenAI 和 Anthropic 同时下注押到具身智能，意味着这件事已经从「赛道选择」变成了「大模型之战的下半场」——不下场就出局。

更值得注意的是，硅谷头部公司在这场竞赛里的打法，和我们在国内看到的具身智能行业是两个画风。

他们不急于做商业落地。

在硅谷的逻辑里，具身智能正处在范式快速演化的早期，谁先冲到一个具体场景去赚钱，谁就先把自己变成了一家「商业服务公司」——而商业服务公司的估值方式，是市盈率。一旦被这种逻辑套住，公司就会被迫围绕短期收入做决策，也就失去了在范式拐点上保持敏捷的能力。

所以硅谷顶级 AI 公司宁可把融到的钱大笔大笔地烧在底层模型和数据范式的探索上，也不着急去签订单、不去抢「人形机器人第一个进工厂」的新闻。他们等的不是一笔早期营收，而是数据范式真正跑通的那一刻。

这跟过去一年中国具身智能行业看到的画面差距很大。在国内，几乎所有人形机器人公司都在抢着把机器人送进工厂、送进医院、送进展会。理由也很现实——国内创业公司很难拿到硅谷那种以年为单位、以技术押注为前提的耐心资本，大多数玩家被迫「沿途下蛋」，边落地边融资。

两条路径没有对错。但要看清今天的全球具身竞赛，必须先回答一个更靠前的问题—— 硅谷头部公司宁可烧钱也不急于落地，他们到底在等什么？

在新的范式里，宇树站对了位置

硅谷头部公司过去一年押在物理世界 AGI 上的钱不少，但烧出来的最大共识不是某个具体的模型，而是一个更根本的判断——

机器人「大脑」的本质，是一个多模态模型问题。

一台真正能在物理世界里干活的机器人，需要看到环境（视觉）、听到指令（语音）、感受手上抓的东西有多重、握得稳不稳（力的反馈），然后输出动作（关节运动）。把这些不同形式的输入和输出用统一的方式去表征、对齐、生成——这正是今天多模态大模型在做的事。机器人的大脑，本质上就是一个多模态模型。

而多模态模型怎么训练、怎么 scale，这些事在过去几年已经被研究得相当透彻了。

真正卡住具身智能的，不是模型能力。

是数据。

机器人领域今天没有足够数量、足够多样、足够好的数据来支撑大规模预训练。整个产业现在最关键的问题，是找到一种新的数据范式——能够批量产生、并能有效用于预训练机器人大脑的数据机制。

围绕这个问题，硅谷头部公司都在做探索。有的在尝试用人类第一视角视频做训练数据；有的在改良仿真，让虚拟环境更接近真实物理世界；有的在重做遥操数据采集；还有的在垂直场景里部署机器人，借助真实交互采集数据。但这些路线今天都还在探索，远没有收敛。

这意味着硅谷头部公司在垂直场景里部署机器人，本质上不是为了把机器人卖进工厂赚钱，而是为了在场景里探索数据范式的边界。OpenAI 的机器人团队、Anthropic 新组建的机器人组、李飞飞的 World Labs，本质上都在为同一件事铺路——找到那个能 scaling 的数据范式。

同时这意味着另一件事——现在并不是机器人公司「砸钱就能获得大脑突破」的时刻。

事实上，大部分机器人公司正在重复 NLP 当年走过的弯路：跳过预训练直接做对齐，甚至想在这种技术条件还不成熟的时候硬把场景做落地。这很可能就是具身智能领域正在经历的 bitter lesson。

回到整个产业来看，意味着具身智能的下一阶段会同时跑两件事——

一件是继续探索数据范式。这是所有押注大脑的公司必须做的事，硅谷头部公司、国内的具身大模型创业团队，都在这条路上烧钱、试错、等待范式收敛的那一刻。这件事不做不行，但什么时候出结果谁也说不准。

另一件是把本体做扎实。这件事的特殊性在于：它不依赖范式收敛。不管未来大脑训练走的是哪条路，机器人最终都需要一具可靠的躯干承载——一个动不动就摔、关节扭矩不够、电机过热就罢工、跑两小时就要回去维护的本体，是没办法承接任何范式级模型的。

也就是说，做本体这件事，无论数据范式怎么演化，今天的投入都不会浪费。一旦范式收敛，本体能力强的公司能更快把可行的路径变成可用的产品。

把做本体这件事放到全球产业来看，特斯拉 Optimus Gen-3 刚宣布启动小批量试产；Figure 还停留在演示阶段；波士顿动力卖了三轮股权，至今没有规模化盈利。

只有宇树是真正把人形机器人本体大规模卖出去，部署到真实场景中持续运转。

2025 年，全球人形机器人总出货量约 1.3 万台，宇树一家卖了 5500 台以上，占了近一半。四足机器人方面，宇树累计部署超过 3 万台，连续多年保持全球市占第一。这些机器人遍布全球的高校实验室、科研机构、商业场馆、工业巡检现场——每一台都在真实物理世界里运转。

这也是为什么，在和硅谷一线具身智能、大模型从业者的交流中，当话题转到中国机器人公司时，几乎所有人提到的第一个名字都是宇树。

宇树没有去玩虚的。它没有为了圆故事去追那些不真正提升技术边界的事。在数据范式还没收敛的当下，它选择把精力放在那件做了不会浪费的事上——把本体做扎实，做到全球没有人能超过的程度。

这种「把本体做扎实」在宇树身上不是一句话，而是一个延续了快十年的方法论。从 2017 年第一款四足机器人 Laikago 开始，王兴兴这个工科背景的创始人定义产品的方式，就是先问「这台机器人能不能稳定造出来」「客户买回去会怎么用」「跌落多少次还能继续工作」，再倒推本体的结构、电机、控制系统该怎么设计。

主题：公司|宇树|硅谷|招股书|物理世界|全球具身浪潮里站|那个位置上