登录

让机器人动作流畅丝滑如「连音」,千寻智能高阳团队提出Legato,入选RSS 2026


速读:
2026年05月29日 07:39

在音乐术语中, Le g ato (连音)意味着音符之间平滑过渡、毫无间断,演奏出流畅优美的旋律。钢琴家的手指在琴键上滑动,小提琴家的弓在琴弦上连贯运行 —— 这种 "连音" 技巧让音乐充满生命力。一位真正掌握连音技巧的演奏者,不需要靠后期剪辑来弥补断点,而是能够知道如何让每一个音符自然地流向下一个。

机器人领域同样在追求这样的 "连音" 效果: 让机器人的动作像音乐一样流畅自然,没有犹豫和停顿 。然而,要让一台机器人真正做到这一点,远比想象中困难。

近日,千寻智能高阳团队的研究成果 《 Learning Native Continuation for Action Chunking Flow Policies 》 被机器人顶会 RSS 2026 接收!这项工作从训练机制出发,让机器人动作天然具有连续性,实现了 "连音" 般的流畅执行,在五个真实世界操作任务上超越了现有方法,为具身智能领域的动作生成研究提供了新的思路。

论文标题:Learning Native Continuation for Action Chunking Flow Policies

论文链接:https://arxiv.org/pdf/2602.12978

项目主页:https://lyfeng001.github.io/Legato/

1. 机器人为什么会 "犹豫"?

想象一下,你让机器人倒水、叠碗或折毛巾,它却在执行过程中频繁停顿、犹豫不决,甚至突然改变主意 —— 比如原本计划用左手抓取物体,执行到一半却又想换成右手,结果两只手都没抓到,白白浪费了时间。这种 "犹豫" 不仅让动作看起来别扭,还会直接拖慢任务完成的速度,在需要精准配合的场景下甚至会导致任务失败。

这背后的根源,要从当前主流的机器人基础模型的动作建模方式说起。

1.1 动作分块:一把双刃剑

目前,主流的 Vision Language Action(VLA)模型普遍采用一种叫做 "动作分块"(Action Chunking)的技术:机器人不是每次只规划下一个动作,而是一口气规划出未来一段时间(比如接下来 1 秒)的完整动作序列,然后依次执行。这样做有两个明显的好处:

动作更连贯,因为模型能看到更长时间范围内的规划;

推理效率更高,不需要每个单独的时间步的动作都调用一次模型。

但问题也随之而来: 每当一段动作序列执行完毕、下一段序列接上来的时候,两段序列之间往往存在明显的不连续性 。就像两段录音硬拼在一起,接缝处总会有一个突兀的 "断点"—— 机器人会在这个瞬间出现停顿、抖动,甚至方向突变。这个问题在需要高频控制的精细操作任务中尤为明显。

更深层的原因在于,基于流匹配(Flow Matching)的 VLA 模型本身具有多模态性 —— 面对同一个场景,模型可能规划出多种合理的动作方案(比如用左手或右手抓取)。当两段动作序列独立生成时,前一段选择了方案 A,后一段却可能选择了方案 B,两者在接缝处发生 "模态切换",导致机器人的动作出现突兀的跳变。

这种现象在任务中途尤为危险:机器人已经伸出了左手,却在下一个动作块里突然决定改用右手,不仅动作难看,还可能直接碰倒目标物体。

1.2 RTC 的修补

为了解决这个问题,研究者们提出了  Real-Time Chunking(RTC) 方法。它的思路是:在生成新的动作序列时,把上一段序列末尾还没执行完的部分 "借" 过来,用来引导下一个序列的生成,通过让下一个序列的前半部分和上一个序列没有执行的部分比较像,来保证两段序列之间的平滑过渡。

这个方法具有非常好的效果,也因此得到了广泛应用。可以把它理解为一种 "接力棒传递" 的机制:新的动作序列不是凭空开始,而是从上一段序列的后半部分 "接棒" 继续。

然而,这个方法实际上存在一些不可避免的缺陷:

推理阶段 RTC :连续性机制只在推理时临时 "打补丁",模型在训练时从未见过这种情况。训练和推理的条件不一致,就像一个学生平时练习的题型和考试题型完全不同 —— 模型在推理时面对 "部分已知的前缀" 时,并不知道该如何正确利用这些信息,容易产生 "虚假的多模态切换",也就是机器人在执行过程中突然 "改变主意"。

训练阶段 RTC :虽然在训练时也引入了这种拼接机制,但做法是直接把前缀片段硬拼接到执行部分的前面,并将这部分固定、不再更新。这样一来,前缀和后续动作之间依然缺乏有机联系:模型只是被告知 "前面这段是固定的,你只需要生成后面的部分"。

两种方式都没有从根本上解决问题: 连续性是从外部强加给模型的,而不是模型自己学会的 。这就好比一个演奏者不是真正掌握了连音技巧,而是靠后期剪辑把两段录音拼在一起 —— 听起来勉强过得去,但终究缺少那种浑然天成的流畅感。

主题:机器人|模型|动作序列