首创TTFA指标!港大团队开源FASTER,让VLA模型真正实现「即刻响应」
本文的第一作者为香港大学博士生陆宇翔,团队包括香港大学博士后刘哲、香港大学博士生范娴喆、杨振亚、侯京华、李俊奕、丁凯欣,通讯作者为香港大学助理教授赵恒爽。
具身智能正以前所未有的速度发展,VLA 模型展现出越来越强的动作和泛化能力。然而,当我们真正把 VLA 模型部署到物理世界时,一个核心挑战浮出水面: 实时性。
想象一下让机器人打乒乓球:球高速飞来时,哪怕只有 100 毫秒的延迟,也可能意味着错过最佳击球时机。对于真实世界中的机器人来说,动作不仅要「做得准」,还必须「反应得快」。
现有实时 VLA 方法大多关注如何让动作更连续、更平滑。但这些方法往往忽略了动态环境中更关键的一点: 机器人到底能多快根据新变化做出反应?
来自香港大学和大晓机器人的研究团队提出了 FASTER ( F ast A ction S ampling for Im media TE R eaction),首次系统性地重新审视了动作分块策略中的反应延迟问题,并提出了一种面向流匹配 VLA 模型的快速动作采样方法。通过将即时动作的采样过程压缩至单步完成,显著降低了机器人开始行动所需的时间。
FASTER 是一个即插即用方案: 无需修改模型架构,也无需额外训练成本。 目前代码已开源,欢迎学术界和工业界试用,共同推动具身智能在真实场景的落地。

论文链接: https://arxiv.org/abs/2603.19199
项目主页: https://innovator-zero.github.io/FASTER/
开源代码: https://github.com/innovator-zero/FASTER
VLA 模型是如何运行的?
目前主流的 VLA 模型,例如 π0.5、X-VLA 等,采用的是动作分块(Action Chunking)策略。模型不是每次只预测下一个动作,而是一次性预测未来几十步的连续动作。这样做的好处是,机器人可以获得更长时间范围内的动作计划,执行起来也更加平滑。
但 VLA 面对着一个现实问题: 模型推理速度往往跟不上机器人控制频率。
在真实机器人系统中,控制器通常以固定频率运行,例如 30Hz,也就是每 33.3 毫秒执行一次控制指令。但 VLA 的推理基本无法在一个控制周期内完成,即使用 RTX 4090、5090 这类高端 GPU,生成一个动作块也可能需要远超一个控制周期的时间。
因此,机器人端侧通常会采用两类推理管线: 同步推理 和 异步推理 。

同步推理: 机器人执行完当前动作块后,会停下来等待模型生成下一段动作。这样做可以避免观测状态和执行状态之间出现偏差,即 感知-执行差异 。但问题也很明显:机器人会频繁停顿,动作不连贯,任务表现也会受到影响。
异步推理: 机器人会提前开始下一段动作的推理。模型在生成新动作的同时,机器人继续执行当前还没有执行完的动作。这样可以消除动作块之间的停顿,让机器人运动更加丝滑。为进一步缓解感知-执行差异,RTC、VLASH 等方法会将重叠时间内已经规划好的动作作为先验输入给 VLA,使模型能够生成符合当前运动惯性的后续动作。
Rethinking:什么才是真正的「反应能力」?
异步推理解决了动作卡顿的问题,但它真的提升了 VLA 的反应能力吗?
本文的一个关键洞见是: 反应时间并不是一个简单等于模型推理延迟的常数,而应该被建模为一个随机变量。
这是因为真实世界中的外部事件是随机发生的。
如果事件恰好发生在模型开始推理之前,那么机器人可以在本轮推理完成后尽快响应,反应最快。但如果事件刚好发生在模型开始推理之后,那么这次推理已经「错过」了这个新事件,只能等到下一轮推理完成后才能响应。

论文进一步分析指出,从期望反应时间来看,普通异步推理相比同步推理的收益其实相当有限:仅仅缩短了 0.5 倍的推理延迟。也就是说,如果推理延迟不变,单纯改成异步并不能从根本上解决问题。
这就引出了本文提出的一个新指标: TTFA(Time to First Action) 。
在动作分块策略中,机器人并不需要等待整个动作块都生成完才能开始动。真正决定机器人能否快速响应的,是 第一个动作什么时候能够生成出来。
这和 LLM 中的 TTFT(Time to First Token)很类似,用户感受到的响应速度很大程度上取决于第一个 token 出现得有多快。
因此,FASTER 认为: 要提升 VLA 的真实反应能力,不能只做异步推理,还必须同时压缩 TTFA,并提高推理-执行闭环的频率。
VLA 的瓶颈在哪里?
当前许多 VLA 都采用基于流匹配(Flow Matching)或 Diffusion 的动作专家来生成动作。
这类模型通常采用 恒定时间步调度 ,动作块中的每一个动作,无论是马上要执行的第一个动作,还是几十步之后才会执行的远期动作,都会使用相同数量的采样步。
如果模型默认使用 10 步采样,那么它必须完成全部 10 步采样之后,才能输出第一个动作。这就形成了一个明显的反应瓶颈: 机器人明明只需要第一个动作就可以开始动,却必须等待整个动作块完成全部采样。
于是,一个很自然的问题出现了: 为什么近期动作和远期动作需要同等程度的「精雕细琢」?

FASTER 对动作采样过程进行了实验分析,并发现动作块内部存在明显的非均匀性。具体来说,论文使用了 平直度(Straightness) 指标来衡量流匹配采样路径的弯曲程度。路径越接近直线,说明这个动作越容易通过少量采样步准确生成。
实验结果显示:
早期动作的采样路径更接近直线插值;
早期动作的中间估计结果与最终输出之间的偏差更小;
早期动作的生成复杂度明显低于远期动作。
这也符合物理世界中的直觉:基于当前状态,下一瞬间该怎么动通常约束更强、变化更小;而越远期的动作受到更多未来不确定性的影响,自然更难预测。
既然近期动作更容易预测,而又直接决定机器人的反应速度,那么为什么不让模型优先生成这些动作?
核心创新:Horizon-Aware Schedule

为了解决上述问题,FASTER 提出了 Horizon-Aware Schedule(HAS) ,思想是解耦动作块中不同时间位置动作的采样进度。HAS 会为动作块中的每一个动作分配一个不同的完成时刻(hit time)。
近期动作使用较少的采样步数,优先生成;远期动作仍然保留较完整的采样过程,保持动作轨迹质量。
这样,模型不再需要等到整个动作块全部采样完成后才输出动作,而是可以先把最关键的即时动作生成出来,让机器人尽快开始响应。
混合调度策略:让预训练模型平滑适应 HAS
直接用 HAS 去微调一个预训练 VLA 模型,可能会带来两个问题。
第一个问题是,现有预训练模型通常是在恒定时间步调度下训练出来的。如果微调时突然切换成动态变化的 HAS,会额外拉大预训练和微调之间的差距。
第二个问题是,在训练中随机采样时间步时,对于近期动作来说,在 HAS 下它们对应的局部时间步有较大概率变成 0,使得这些动作几乎总是直接使用真实动作作为输入,模型反而学不到如何自己生成这些动作。
为了解决这两个问题,FASTER 提出了一种 混合调度策略(Mixed Scheduling Strategy)。
具体做法是:给定一个混合概率 p,每个训练样本都有 p 的概率使用 HAS,同时也有 1-p 的概率保留原来的恒定时间步调度。模型在微调时既能学习新的 HAS 时间步参数化方式,也不会完全丢掉预训练阶段熟悉的固定时间步设置。
最重要的是,这个过程不需要修改模型结构,也不会引入额外训练成本,可以直接整合进现有 VLA 的微调流程。
流式推理接口:生成一个,执行一个
有了 HAS 之后,动作可以被渐进式生成。FASTER 因此进一步设计了一个 流式客户端-服务器接口(Streaming Client-Server Interface)。
在模型端,一旦某个动作完成采样,就会立即发送给机器人控制器,模型则继续采样和完善后续动作。
机器人客户端则会持续监听来自模型的新动作,并将接收到的动作加入缓冲区,机器人可以一边执行已经收到的动作,一边等待后续动作到来。
此外,FASTER 还引入了 早停机制 。当执行范围内需要的动作都已完成采样时,模型可以提前终止剩余采样步骤,直接进入下一轮推理准备。这等价于缩短了一次推理-执行周期,从而进一步提高闭环响应频率。
因此,FASTER 不只是降低了第一个动作的生成延迟,也提高了整个系统的更新频率。
实验结果:更低 TTFA,更快反应
FASTER 在两种 GPU 平台上进行了真实测速实验,分别是高性能的 RTX 4090 和消费级的 RTX 4060。