登录

【清流资本·硬币的另一面】对话星动纪元陈建宇:定义通用具身智能体


速读:同时,对于大模型而言,机器人是通用AI实现与物理世界交互的关键载体和入口。 北京星动纪元科技有限公司成立于2023年8月,是唯一一家清华大学占股,并获上海期智研究院支持的。 2011年上大学开始,我就在研究机器人,我本科在清华做的毕业设计就是双足机器人的步态规划。
2024年12月13日 17:09

清流资本在过去十年捕捉了TMT、消费、硬科技等主流行业下的多个细分赛道冠军,也建立了投得“稳”、“准”、“精”的基金形象。近年,清流资本推出原创科技专栏——“硬币的另一面”,通过清流合伙人和科技企业创始人对话的形式,讲述当前创投形势下,那些科技类被投企业的故事。清流资本将持续关注新兴科技赛道。

今天,我们对话的主角是星动纪元的创始人陈建宇。

本文包含以下内容,阅读需要12分钟。

• 投身机器人科研13年,中国原创科技引领全球

• AI加速具身智能,坚定原生通用人形

• 搭乐高一样做机器人,连推六代人形本体

• 小步快跑商业化,清流是赋能型投资人

• 清流为何投资星动纪元

北京星动纪元科技有限公司成立于2023年8月,是唯一一家清华大学占股,并获上海期智研究院支持的,研发具身智能及通用人形机器人的新兴科技公司。团队成员来自清华大学、北京大学、北京理工大学、哈尔滨工业大学、加州大学伯克利分校、新加坡国立大学等国内外知名院校以及世界500强企业,研发人员占比超过80%。

星动纪元的创始人陈建宇,2015年本科毕业于清华大学精密仪器系,这是国内最早从事双足人形机器人研究的单位之一。后直博于加州大学伯克利分校(UC Berkeley),师从美国工程院院士、机电控制先驱、MPC(模型预测控制)算法理论奠基人Masayoshi Tomizuka教授。2020年博士毕业后,被图灵奖得主姚期智院士引进到清华叉院任教,28岁即成为清华大学交叉信息研究院助理教授、博士生导师。陈建宇在机器人、人工智能、控制、交通等领域的国际顶级会议和期刊上发表了七十余篇论文,其中多篇论文获得了RSS 2024、L4DC 2022、IEEE IV 2021、IFAC MECC 2021等国际顶级学术会议的优秀论文提名奖。

公司成立一年以来,人形机器人产品已经迭代到第六代——星动STAR 1,目前已经通过了一系列极限测试,性能已达世界顶尖水平,被认为是全球跑得最快、最稳的人形机器人。此外,公司基于模块化的能力,迅速从人形机器人中分化出了灵巧手和轮式机器人等场景级产品,使得原本遥远的人形机器人商业化路径得以更快落地,帮助公司实现了初步商业化。

星动纪元创始人陈建宇

投身机器人科研13年

中国原创科技引领全球

清流:请先简单介绍一下星动纪元?

陈建宇:星动纪元是专注于做原生具身通用智能体的科技公司,2023年从清华大学孵化出来的。我们希望做出真正原生的机器人,以及围绕AI构建的整套硬件平台。

清流:近两年具身智能赛道随着AI大模型的出现急速升温,和你选择开始创业的Timing有关吗?

陈建宇:我就是一直在做(具身智能)这件事,只是做着做着这个赛道火了。甚至可以说,今天具身智能火起来也有我们的一部分贡献。

清流:怎么说?

陈建宇:我一直以来的梦想就是做通用的机器人。2011年上大学开始,我就在研究机器人,我本科在清华做的毕业设计就是双足机器人的步态规划。后来到UC Berkeley 直博也一直从事机器人领域的研究。博士毕业后,我有幸获得姚期智院士的认可,被他引进到清华叉院任教,并启动了通用机器人的研究课题。

2022年末ChatGPT刚出来,我就提出要把大模型的强大能力和机器人结合起来,实现AI与物理世界的交互——做通用具身智能。要实现这个终极目标需要强大的工程能力和资金支持,学校的工程资源有限,所以我们就开始筹备成立公司。

2023年,我们团队发表了世界上第一篇用大语言模型赋能人形机器人决策的文章。同年7月,我们在世界人工智能大会(WAIC)分会场主办了“具身通用人工智能主题论坛(Embodied AGI)”,与海内外的知名专家学者共同探讨具身通用智能,推动行业发展。

现在无论是国家层面,还是投资人、产业方,对具身智能的关注和投入的确越来越多了。

清流:很多人认为具身智能是中国原创科技引领全球的新高地,你怎么看?

陈建宇:每一波新的科技出现,中美的差距都在逐步缩小。从芯片到AI领域,中国企业的追赶速度越来越快。具身智能领域中美的差距就更小了,都在起步期,大家都是摸索前进。可能过去美国积累了一定的人才优势,但中国也有产业链优势可以与之形成分庭抗礼之势。甚至,我认为中国反而会比其他国家跑得更快。

机器人的算法能力决定产品力天花板,硬件端能力保障类人运动功能的实现,两者缺一不可。硬件在很大程度上会影响算法的performance,海外在硬件上的不足会反向拖慢他们的软件迭代速度。美国这一波机器人硬件端现在主要就看特斯拉了。

中国对具身智能的重视和关注度更高,很多地方政府和国资都在快速发力支持具身智能,中国也有很多原创性的人才(机器人顶尖学府如伯克利、斯坦福、MIT的教授是外国人,但学生都是来自清华、北大、交大等等国内高校的华人在推进出下一代成果)。而且,中国还有全球最大的机器人硬件产业链优势,参照中国新能源车的发展路径,我们在具身智能领域可能会更快领跑,有望实现中国原创技术引领全球。

清流:中国具身智能领域目前的瓶颈有哪些?星动纪元如何突破?

陈建宇:从技术层面来看,我认为所存在的瓶颈在未来都是可以去突破的。现在行业内讨论最多的硬件、算法、数据这三个最核心的环节,任一环节出现瓶颈都会制约具身智能的发展。所以星动纪元现阶段坚持全栈自研,主动去发现关键环节上的问题、逐一攻坚,目前已取得了一些突破性的进展:

硬件端,基于我们在双足领域的积淀,已经推出了全球户外性能最强、跑得最快的人形机器人本体,实现了让机器人从“能动”迅速迭代到“走得稳、跑得快”。未来将继续迭代,让它可以走得更久、更稳;手部操作方面,我们自研了全球综合性能最高的灵巧手,后续会随着产品化进一步提升其耐久度和稳定性。

算法端,目前多数产学研都在研究如何将大脑、小脑、末端控制的分层框架进行融合。星动纪元背靠全球顶尖学府清华的科研资源,领先推出了自研的原生机器人大模型框架,率先实现了端到端、多模态、多策略的算法框架。目前,我们的手部操作是全球首个灵巧手端到端大模型,腿部运控也已经实现了真机全地形、全步态泛化的能力。基于此,我们会继续让机器人摒弃人类先验、通过自我探索和学习,更早实现具身智能的Scaling law。

数据是具身智能领域的稀缺资产和资源,想要实现具身智能,需要大量的高质量数据给机器人学习。我们的解题思路还是基于第一性原理,先广泛地从各个领域获取多模态(语音、视觉、触觉等)的信息输入,比如互联网数据/图像/视频、现实中的动捕、虚拟的仿真/合成数据,并结合摇操作和现场部署实际收集回来的数据,去反哺我们的原生大模型,提升其理解、学习和优化能力,并对我们的硬件迭代提供不同场景参数。

AI加速具身智能

坚定原生通用人形

清流:研究机器人这13年,你亲历了AI如何推动具身智能发展,和我们分享一下这个过程?

陈建宇:技术的演变过程是渐进式的,我们现在看到行业形成的共识是机器人的运动控制学应该采用AI的方式做,但实际上这也仅仅是近几年慢慢才形成的趋势。

本科期间我就一直在思考机器人本质的问题,同时对AI一直保持密切关注,当我看到有人用强化学习(Reinforcement Learning,RL)做出来一些简单的Demo,觉得非常神奇、非常有前景。但那时还没法把它和机器人结合起来,因为要把RL引入到机器人有一个先决条件——必须能实现在连续的空间里做任务,因为机器人在物理实验中是连续的,此前的技术没法达到这个条件。2016年左右,深度强化学习的出现使得我们可以在连续空间做任务了,我就开始往这个方向专门去做一些研究。

清流:那时做RL算很超前了吧?

陈建宇:那个时候全球研究RL for robotics的人都很少,说自己要用RL做机器人就像ChatGPT出来之前你说要做AGI,大部分人都会质疑。但我很清楚它的价值,非常坚定地推动相关研究。后来陆陆续续这个领域出来了一些成果,大家才开始陆续转RL,再过了一段时间,RL的表现就开始超越MPC了。

2022年,ChatGPT的出现是一个非常关键的时间节点。

虽然我之前一直有关注到前几代GPT2、GPT3,也知道大语言模型等研究工作的进展,但我当时对“怼算力出奇迹”这个事情是比较存疑的。直到ChatGPT出现改变了我的看法,大模型展现了惊人的泛化能力,我立刻带着团队研究大模型在人形机器人领域的应用。后来越来越多科研成果也表明,Scaling up可以加速具身智能领域的发展,实现通用具身智能这个终极目标不再遥不可及。

清流:你一直在做第一个吃螃蟹的人。

陈建宇:核心还是基于技术的第一性原理推演。如果只看表象的话,RL一开始的表现的确比MPC差,只能在仿真方面做一些很Toy的例子。但因为我自己是写MPC求解器的,写过很多基础代码,我清晰地知道MPC有很多局限。同时我也一直保持对AI算法的关注,对RL有一定的了解和判断,所以我当时很坚定要做RL。后来大模型出现了,我也把很多精力放在大模型领域的研究。从传统的MPC转到RL、再到大模型,这些技术路线的演变都是在我们计划中的,只是时间上比我们设想得更快一些。

清流:为什么特别强调要做“原生机器人大模型”?

陈建宇:只有原生性突破才能真正解决传统机器人没有解决的很多问题。原生就是要让机器人既有上层的逻辑思考能力,还要对身体有完整的控制权,能够调控身体和物理世界进行各种各样的交互。举个例子,让机器人在复杂的路面上行走,传统机器人是人为去hardcode,经过精确的建模计算,腿抬多高、步幅多少厘米、落在什么地方、使多大的力等等,最后它只能在特定环境下做一些很机械的动作。而人走路是来自于我们从小开始学习在各种环境中摸爬滚打、站立行走,在这个过程中人的硬件(身体)在逐渐成长,算法(大脑)一直在迭代,逐渐收敛到一个最佳状态,最后走路就成为瞬间发生的条件反射动作,不仅能走路,还能跑能跳,能适应各种各样的地面环境。

人的行为整个就是data driven训练出来的原生模型。

清流:所以你是坚定的“人形”拥趸?

陈建宇:我们追求靠近人形,但并不迷信人形。

当前世界上唯一存在的通用具身智能体的实例就只有人,从人身上学习能得到很多启发,向人形靠近有很多的优势:

数据层面,当前具身领域的一大痛点就是缺少数据,人形机器人可以很好地复用人类现有的视频、摇操作等等数据。

场景层面,在当前的人类环境所有设施都是为人类去设计的,要在这个环境里面生活,就迫使机器人要去贴合环境。对机器人的通用性要求越高,越需要接近人形的形态。机器人如果只需要在平地环境里工作,可以用人类一样的上半身,下半身用轮式,但如果我想要它能下楼给我取快递,就需要腿了。

功能性角度,对比此前的传统机器人,如工业的机械臂、夹爪、轮式底盘等。人形机器人有手有腿,手比夹爪灵巧,能做的事情就多很多,双腿比轮子能到的地方也多,移动能力的边界就提升了,这让具身智能也有更多的发挥空间。

从技术上,人形是更难实现的,有能力做到人形之后,其他的机器人形态我们都能快速分化出来,是可以向下兼容的。反着来可能就不行。所以,人形机器人也是我们保持技术领先性的战略高地。

但我们并不坚持只做人形,在商业化角度,会基于实际应用场景去提供性价比最高的适配产品。通用场景中人形机器人更容易规模化,单一任务均摊下来的成本降低了,且空间利用率更高,那我们会主推人形机器人;如果是某些特定场景,我们也能从人形快速分化出模块化的产品,以最低的成本高效解决实际应用需求。

搭乐高一样做机器人

连推六代人形本体

清流:听起来像搭乐高一样简单,但要怎么实现?

陈建宇:我们一开始入局就选择先攻坚hard模式(人形机器人),打磨出了做机器人的能力,并在这个过程中把很多能力给聚集和模块化了。我们的机器人硬件都是可拆卸和组装的,你可以理解为就像乐高积木块一样。例如,我们的灵巧手就是一个单独的部件,可以直接拆下来放到另一个机器人的手臂上,甚至灵巧手的手指都可以拆下来,每个关节都是单独的部件,非常灵活。而我们的算法是通用的,(硬件)排布装置改了也没关系,算法再跑一遍自动就能出来。

看实际应用场景需要什么样的机器人,我们就以最高效、最省成本的方式把这个产品快速开发出来,实现商业上的应用。

清流:看起来星动纪元是集合了Tesla Optimus和Physical Intelligence咯?

陈建宇:哈哈可以这么认为,我甚至觉得从研发层面,我们有一些硬件、算法框架的点有超越他们。

Tesla确实在硬件工程能力上非常出色,走路非常丝滑,工业设计也是业内顶尖;Physical Intelligence也很突破地开发用于具身领域的基础模型和学习算法,PI最近发布的机器人基础模型π0,通过预训练的视觉-语言模型和创新的flow matching (流匹配)架构,使机器人能够执行如折叠衣物、组装纸箱等复杂任务。

星动纪元经过过去一年的迭代,无论是腿部、手部的硬件能力都是行业内最顶级——跑得最快最稳、灵巧手响应最灵活。算法端,我们在ChatGPT刚出来时就开始进行具身基础模型的研发了,相比Physical Intelligence的π0使用的纯模仿学习,我们把世界模型嵌入到了具身大模型中,并且从海量视频数据中学习如何理解物理世界并与其交互。同时,这种方法提升了模型的泛化能力,能在更多样化的场景下保持稳定的表现。π0用了1万个小时的机器人数据,我们的数据量小多了,具体细节可以关注我们即将发布的最新的模型成果。

所以,星动纪元不是简单地结合Tesla Optimus和Physical Intelligence,而是在多个关键领域取得了原创性进展。

清流:Cool !星动纪元为什么具备这样的能力?

陈建宇:具身领域是迭代非常快的领域,需要产学研共同去推进,我们有非常顶级的技术团队和科研资源。刚开始创业我们就吸纳了国内做人形机器人和机器人领域很多非常有经验的专家,这样的人才在全球范围内都是非常稀缺的。AI方面,我们背靠清华的科研资源,包括我在清华的课题组也会在具身智能前沿研究方面持续创新,这些资源是很多同行没有的。

加上我们做机器人做得早,过去数年间我在几乎所有与机器人相关的技术路径上都做过学习和尝试,积累了很多经验和认知。后来在硬件细节和算法架构上不断有成果跑出来,证明了我们从day one开始就走在正确的方向上。选择的大方向比较正确,并不断在正确的方向上长期积累认知,优势就越来越明显。截至目前公司进展顺利,行业里也不断开始有人来follow我们的路线。

此外,作为一个创业公司,我们团队的执行力也很强。有一次看到同行有一个新的demo发出来,我们工程师就很不服气,他就熬夜直接当晚给复现出来了。

清流:公司成立到现在经历了哪些关键的milestone?

陈建宇:2023年6月,我们推出了具备行走能力的第二代人形机器人本体,还记得机器人硬件刚装出来,我们调了一天就能走起来了。

2023年底,第四代人形机器人“小星”在全球范围内首次实现了人形机器人端到端强化学习野外雪地行走,包括雪地上下坡,以及上下楼梯。该过程不需要依赖于预先编程的行走模式,而是完全通过AI自主学习实现的。这使得机器人能够自主地适应不同的地面条件,从而在复杂的雪地环境中稳定行走。相关论文拿了机器人领域顶会RSS 2024(Robotics: Science and System)的最佳论文提名奖(Outstanding Paper Award Finalists),全球只有3篇论文入选,也是RSS历史上第一次有中国团队获得该奖项。

2024年Q1推出第五代机器人,这一代机器人无论从硬件构型和算法迭代已经是行业内最领先的产品了。更关键的是,我们还加上了自研的灵巧手,配备12个关节自由度。刚发布时有人把我们和特斯拉的灵巧手做对比,实际上,我们的灵巧手的自由度比特斯拉的机器人还要高。

2024年9月,发布了第六代机器人星动STAR 1,自由度增加到了55个,关节扭矩提升到了400N·m,关节转速达到了25rad/s,性能已经达到全球顶级水准。经过各种公开环境实地测试,星动STAR 1已被验证是世界上跑得最快且最稳的机器人。同时,我们还推出了桌面机器人和轮式机器人,以及模块化的灵巧手产品。星动纪元目前是全球除特斯拉以外唯一一家有灵巧手的人形本体公司。

清流:迭代速度很快!对公司未来的规划是?

陈建宇:1-2年的短期目标是实现技术产品化。技术上会把现在端到端的技术做得比较通用,找到PMF的场景。我们已经有了一些突破,接下来会继续把数据、精度、稳定性等进一步提升。

3-5年的中期目标是实现机器人的ChatGPT时刻,即AI在机器人上Scaling到一定程度后,呈现智能涌现的状态。

5-10年的长期目标是达到机器人的iPhone时刻,希望我们的机器人成为像iPhone一样的产品,真正走进千家万户。

小步快跑商业化

清流是赋能型投资人

清流:创业这一年有哪些心得体会?

陈建宇:创业对学习能力要求甚至比做学术更高一些。因为创业比单纯的学术维度广很多,很多事情交叉在一块,各方面的不确定性更高了,决策错误的代价也更高。既要求你要把事情看得更深一些,同时又不能一直想,很多事情都必须要快速决策。

清流:怎么做到既深度思考、又快速决策?

陈建宇:这是一个综合性的能力,就像我们早期选择原创技术路径时,需要先看清楚全局的路,了解各条技术路线。但也不要花太多时间看,因为这就是一个不确定性非常高的事,你永远不可能完全看清。在看到一个相对比较有把握的状态时,就要开始大胆一点往前做。技术是这样,商业更是如此。

我坚信很多事情就是创造出来的,选定路之后就要相信自己,做一切努力去增大它成功的概率。

清流:创业至今最有成就感的时刻?

陈建宇:看到我们的机器人第一次走起来的时候。当时就觉得我们很牛x,哈哈哈!心想特斯拉又如何,我们也是可以做出来的。

清流:目前遇到的最大挑战是什么?

陈建宇:我觉得前面经历的都不算最大的挑战。有遇到过一些有挑战的技术问题,但因为我做技术这么多年,已经习以为常了。技术本身第一性原理还是比较强的,即使有什么问题,我们也可以快速弥补,最多就是浪费一小部分时间和一些人力物力。

相比于技术上的挑战,未来即将要面对的商业决策可能会更具挑战。商业的不确定性更高,特别硬件产品拉通之后,需要考虑量产、建厂、供应链打通,整个投入会比现在高很多,商业决策错误的代价也会高一些。

清流:你打算怎么应对?

陈建宇:公司层面我们已经在做相应的准备了。虽然我们团队是做科研出身,但是我们一直认为好的技术产品最终是要能实现商业化的。再顶尖的技术,如果成本过高、质控不稳定、不好用,都会导致最终无法在实际应用场景落地。所以我们一直坚持模块化的产品设计,并通过一些成熟的模块化产品实现小步快跑商业化。目前主线人形产品已经涵盖了所有的功能,从主线产品拆分出几个模块组装一下,就可以做出其他形态的产品,实现现阶段技术与场景结合的最优解,这也降低了我们做一款产品的成本。在帮助企业实现自身造血能力的同时,通过场景的打磨、获得真实使用数据反馈,帮助我们在产品研发上进一步迭代,逐渐形成商业-数据-研发的闭环。目前,在部分场景中我们已经有了一些客户订单。

对我个人来说,要进一步提升学习能力和学习速度,多跟人交流、学习、多练习。团队方面,我们也会陆续引入具备商业化能力的成员。未来,还借助合作伙伴获得更多的行业资源支持。

清流:和清流接触的初印象是怎样?

陈建宇:和清流这边认识得比较早了,去年就开始和deal team有陆续接触。行业里大家对清流的评价都非常高,清流的投资人是真正懂具身智能的,而且会从公司发展的角度进行赋能,清流背后各方面的产业资源也有足够的能力给公司提供帮助。

清流:哈哈哈看来还很认真地做了反向背调呀~

陈建宇:融资时大家都会聊起嘛。我觉得企业融资不只是争取资金的支持,同时投资人也是我们非常重要的伙伴和很好的朋友。

清流:至今清流有给公司提供过什么帮助吗?

陈建宇:清流实际在各方面对我们的支持都蛮大的,一方面帮助提升我的认知,同时也对接了不少资源。梦秋总以前在产业里,经验和资源都非常丰富,我们有一些问题也会主动去问她,她很愿意帮助我们排忧解难,给我们介绍行业资源和人脉。

雨豪总经常会过来公司关心我们,看到行业最新的动态或paper也会及时和我分享和交流。创业路上难免遇到一些困难的事情,他也会给我做些心理按摩。

这一年真正接触下来,清流给我感觉真的就像这个名字一样,是一个很赋能型的资本。

清流:看来会做心理Massage也成为当下投资人的核心竞争力之一了~

陈建宇:哈哈哈,创业路上得到这样的心理支持还是非常好的。我们也非常幸运能跟清流合作。

清流为何投资星动纪元

清流资本长期保持对全球机器人行业的洞察与战略布局,新一轮AI技术变革出现后,更是积极探索AI和物理世界结合的投资机会。前沿模型的发布为具身智能的突破铺平了道路,使机器人能够以前所未有的方式理解、推理、与物理世界互动,为通用智能机器人的实现带来革命性的机会。尤其在人形机器人领域,展现出极高的技术突破和商业化潜力,市场及产业急需实用且可扩展的创新解决方案,为投资具身智能创造了一个独特的窗口期。

实现自主感知、规划决策、执行闭环并且能在各种场景自适应的智能通用机器人,是机器人和AI 领域的长期目标。然而,传统机器人系统由于缺乏交互、感知、决策的能力,往往难以实现这些功能。自从OpenAI发布GPT-3以来,AI的蓬勃发展,特别是各类大语言模型(LLMs)和视觉大模型(LVMs)的问世,为机器人实现泛化的理解、推理、并与物理世界产生交互的智能系统——即“具身智能”概念,提供了算法基础。同时,对于大模型而言,机器人是通用AI实现与物理世界交互的关键载体和入口。

大模型所展现的泛化能力,为通用智能机器人的实现带来了全新的可能性。我们认为此次AI与机器人的结合将对机器人感知、决策、控制的整体系统能力带来全面重构,在更大范围内扩展机器人的能力边界,带来更广泛的市场新机会。这一变革将对机器人行业产生全面和深远的影响,使机器人进入一个全新的发展范式。

同时,具身智能有可能成为少数由中国引领而非美国主导的前沿创新科技领域之一,我们判断这一领域的最终格局可能类似于新能源车的发展趋势:尽管美国在技术原创性和创新方面处于领先地位,但就现阶段中国在生产制造方面已经展现了强大的追赶能力和优势。同时,在具身智能相关的AI研究方面,实际主导学者均为华裔或中国学者,原创性和追赶速度也非常迅速。因此,放眼全球,中国在机器人产业中有望占据主导地位。

过去的一年,我们见证了由陈建宇老师带领的星动纪元团队展现出来强大的技术迭代能力,比如:在腿部运动控制算法方面,从传统模型控制转向带感知的强化学习算法,实现了复杂地形上的顺利通行;在手部通用操作算法方面,团队进展迅速,已实现端到端灵巧手大模型。充分展现了在相对收敛的技术路线上行业领先、新技术路线快速发现/复现/落地的能力、软硬件一体化结合和灵活的商业化思路。

我们期待星动纪元凭借其技术积累和持续创新,在该领域树立行业标杆,推动智能机器人在各类复杂应用场景中的普及与落地,为行业注入新活力,加速具身智能的商业化进程,赋能全球机器人产业的转型升级。

主题:机器人|星动纪元|陈建宇|具身智能|清流资本|人形机器人|创始人陈建宇|中国原创科技引领全球