人形机器人简史:你的“落地”,我的“星辰大海”
“如果特斯拉说人形机器人不做了,可能机器人整个赛道都会垮掉”。
有人讽刺众擎机器人是一家影视制作公司,这让赵同阳感到愤怒。
“每个机构的人都想在牌桌上,这个赛道,可以投错,但不能错过”。
他最近研发的项目是,“让机器人去叫同事开会”,据说机器人能记住1000张脸。
从2023年产业大爆发开始, 只花了两年时间,人形机器人赛道就变得非常拥挤。
2025年11月27日,国家发 展 改 革 委在例行新闻发布会 上 给出的数据显示,中国已经有超过150 家人形机器人公司,半数以上为初创或 “ 跨行 ” 入局。
在这长长的队伍中 , 站在前台的大多是 “ 四肢发达、大脑简单 ” 的硬件派,创始人大多来自自动化或机械工程专业。他们更偏重造机器人本体,造出的人形机器人 往往拥有完整的双足, 可以 格斗、跳舞、跑马拉松 , 因此更容易吸引眼球 。
另一批隐于幕后的公司则是造大脑的AI派,创始人基本拥有博士学位,有海外学术背景,出自人工智能专业。他们的人形机器人大多是轮式底盘,没有双足。 在真正决定技术走向的科研前线上, AI 派才是真正的主角。
究竟哪些公司能成功跑到终点 ? 哪些公司只是昙花一现? 不可能的任务
2020 年, 31 岁的王潜从美国 一所 大学博士毕业,没有选择读博时的机器人学习研究方向,而是 成立 了一家量化基金公司。他那时悲观地认为,在技术没有本质改变之前,机器人没有未来。
“ 因为即便穷尽整个地球的资源, 以当时的技术路径, 也不可能训练出一个真正具备通用智能的机器人。 ” 他对南方周末记者 说 。
早在 1973 年,日本早稻田大学教授加藤一郎就开发了 WABOT-1 ,它被视为全世界第一个全尺寸人形机器人,加藤一郎也因此被称为人形机器人之父。但 WABOT-1 仍是一个预设算法控制的提线木偶式机器人。
沿着这一技术路线,波士顿动力 、 北美机器人于1990年代分别 脱胎于麻省理工 学院、 卡内基梅隆大学, 这 两所学校的机器人实验室 大多 是自动化背景。
波士顿动力的 Atlas ,曾是历史上最先进的机器人,可以完成后空翻,在人类难以 保持 平衡的地形中跑酷,可是没办法替代人类工作。因为那些炫酷动作都是预先编程的结果,这种基于传统算法去控制机器人的方式,始终突破不了“提线木偶”的宿命。
到了 2016 年, AlphaGo 与李世石的围棋世纪大战让强化学习方法一战成名,其迅速成为机器人圈最炙手可热的技术。
但 强化学习 对数据量的需求极其庞大 ,而机器人几乎没有现成的数据 。
谷歌当时一项研究曾显示,一只机械臂仅通过自监督学习的方式,就需要采集超过 5 万条样本,才能学会一个稳定的抓取模型。一个婴儿学会稳稳拿住一把勺子,显然不需要 5 万次练习。
如果让真实的机械臂去完成这 5 万次抓取,人工与设备成本将高得难以承受。现实中更可行的办法,是先在物理仿真器中,为机械臂搭建一个 “ 虚拟世界 ” 的抓取训练场。但物理仿真器却难以对真实世界做到 100% 还原,由此产生了一个著名问题 ——“ 仿真到现实鸿沟 ” ( sim-to-real gap )。仿真环境中学到的策略,到了真实机械臂上往往会 “ 失灵 ” 。
更重要的是,随着任务难度的提升,所需的学习样本还会呈指数级增长,基本上没有实现条件。
2022年年底,ChatGPT在自然语言领域验证了用预训练这种方式,能让计算机掌握自然语言,科学家们自然联想到,预训练是不是也可以让机器人拥有视觉理解和生成动作的能力?
2023年 4 月,谷歌 验证了这一猜想的合理性。它把大语言模型的训练方式,迁移到计算机视觉领域,发布机器人成果 RT-1 ,能覆盖 700 个任务。
3个月后,它又发布了迭代过的 RT- 2,提出一种针对机器人的全新预训练模型架构: “ VLA ” ( Vision-Language-Action ,视觉语言动作)模型,这是在互联网规模的视觉和语言数据上训练的大模型。
谷歌的新成果让王潜重新点燃了希望。他对南方周末记者说, RT- 1 和 RT- 2 证明了一件事,如果能训练出一个通用 的能完成 任何任务的 “ VLA ” 模型 , 随着任务复杂性增加,机器人学会一项技能所需的数据样本反而更少了。这让他确定,实现通用机器人唯一的路径,就是打造一个具身智能的通用大模型。
2023年 7 月,王潜回国, 12 月创办了自变量机器人公司。 他如今留着一头飘逸长发,看上去更像一个艺术家。
当时,可以对标的 具身智能 公司 在美国 已经出现。 2022 年 2月 , F igure公司在美国加州创办 , 它 宣布要打造通用人形机器人。 202 3 年 5 月, Figure 以 14 亿美元的估值 , 完成了7000万美元A轮融资 。
2024年, F igure打造 出了 具身智能大模型 Helix ,展现出强大的物体泛化能力。只需通过自然语言指令,就能抓取数千种形状、大小、颜色和材质各异的全新家居用品,哪怕这些物品在训练过程中从未出现过。
模型发布后 , F igure 估值 在一年里 暴涨十几倍, 2025年 以369亿美元的估值问鼎全世界最贵的机器人公司。 大爆发的一年
王潜回国创业之前, 优必选、 宇树科技可能是国内最早创办的人形机器人公司 , 均属于造本体的硬件派 。
优必选 创始人周剑原本是一 个 门外汉,他本科毕业于 南京林业大学木材工业学院 ,依靠做自动化设备生意积累了第一桶金。
2008 年,受到日本小型人形机器人的启发,
主题: