首创TTFA指标！港大团队开源FASTER，让VLA模型真正实现「即刻响应」

速读：ImmediaTEReaction），首次系统性地重新审视了动作分块策略中的反应延迟问题，并提出了一种面向流匹配VLA模型的快速动作采样方法。目前主流的VLA模型，例如π0.5、X-VLA等，采用的是动作分块（ActionChunking）策略。但VLA面对着一个现实问题：模型推理速度往往跟不上机器人控制频率。这样可以消除动作块之间的停顿，让机器人运动更加丝滑。论文进一步分析指出，从期望反应时间来看，普通异步推理相比同步推理的收益其实相当有限：仅仅缩短了0.5倍的推理延迟。

2026年05月14日 14:26

本文的第一作者为香港大学博士生陆宇翔，团队包括香港大学博士后刘哲、香港大学博士生范娴喆、杨振亚、侯京华、李俊奕、丁凯欣，通讯作者为香港大学助理教授赵恒爽。

具身智能正以前所未有的速度发展，VLA 模型展现出越来越强的动作和泛化能力。然而，当我们真正把 VLA 模型部署到物理世界时，一个核心挑战浮出水面：实时性。

想象一下让机器人打乒乓球：球高速飞来时，哪怕只有 100 毫秒的延迟，也可能意味着错过最佳击球时机。对于真实世界中的机器人来说，动作不仅要「做得准」，还必须「反应得快」。

现有实时 VLA 方法大多关注如何让动作更连续、更平滑。但这些方法往往忽略了动态环境中更关键的一点：机器人到底能多快根据新变化做出反应？

来自香港大学和大晓机器人的研究团队提出了 FASTER （ F ast A ction S ampling for Im media TE R eaction），首次系统性地重新审视了动作分块策略中的反应延迟问题，并提出了一种面向流匹配 VLA 模型的快速动作采样方法。通过将即时动作的采样过程压缩至单步完成，显著降低了机器人开始行动所需的时间。

FASTER 是一个即插即用方案：无需修改模型架构，也无需额外训练成本。目前代码已开源，欢迎学术界和工业界试用，共同推动具身智能在真实场景的落地。

论文链接： https://arxiv.org/abs/2603.19199

项目主页： https://innovator-zero.github.io/FASTER/

开源代码： https://github.com/innovator-zero/FASTER

VLA 模型是如何运行的？

目前主流的 VLA 模型，例如 π0.5、X-VLA 等，采用的是动作分块（Action Chunking）策略。模型不是每次只预测下一个动作，而是一次性预测未来几十步的连续动作。这样做的好处是，机器人可以获得更长时间范围内的动作计划，执行起来也更加平滑。

但 VLA 面对着一个现实问题：模型推理速度往往跟不上机器人控制频率。

在真实机器人系统中，控制器通常以固定频率运行，例如 30Hz，也就是每 33.3 毫秒执行一次控制指令。但 VLA 的推理基本无法在一个控制周期内完成，即使用 RTX 4090、5090 这类高端 GPU，生成一个动作块也可能需要远超一个控制周期的时间。

因此，机器人端侧通常会采用两类推理管线：同步推理和异步推理。

同步推理：机器人执行完当前动作块后，会停下来等待模型生成下一段动作。这样做可以避免观测状态和执行状态之间出现偏差，即感知-执行差异。但问题也很明显：机器人会频繁停顿，动作不连贯，任务表现也会受到影响。

异步推理：机器人会提前开始下一段动作的推理。模型在生成新动作的同时，机器人继续执行当前还没有执行完的动作。这样可以消除动作块之间的停顿，让机器人运动更加丝滑。为进一步缓解感知-执行差异，RTC、VLASH 等方法会将重叠时间内已经规划好的动作作为先验输入给 VLA，使模型能够生成符合当前运动惯性的后续动作。

Rethinking：什么才是真正的「反应能力」？

异步推理解决了动作卡顿的问题，但它真的提升了 VLA 的反应能力吗？

本文的一个关键洞见是：反应时间并不是一个简单等于模型推理延迟的常数，而应该被建模为一个随机变量。

这是因为真实世界中的外部事件是随机发生的。

如果事件恰好发生在模型开始推理之前，那么机器人可以在本轮推理完成后尽快响应，反应最快。但如果事件刚好发生在模型开始推理之后，那么这次推理已经「错过」了这个新事件，只能等到下一轮推理完成后才能响应。

论文进一步分析指出，从期望反应时间来看，普通异步推理相比同步推理的收益其实相当有限：仅仅缩短了 0.5 倍的推理延迟。也就是说，如果推理延迟不变，单纯改成异步并不能从根本上解决问题。

这就引出了本文提出的一个新指标： TTFA（Time to First Action）。

在动作分块策略中，机器人并不需要等待整个动作块都生成完才能开始动。真正决定机器人能否快速响应的，是第一个动作什么时候能够生成出来。

这和 LLM 中的 TTFT（Time to First Token）很类似，用户感受到的响应速度很大程度上取决于第一个 token 出现得有多快。

因此，FASTER 认为：要提升 VLA 的真实反应能力，不能只做异步推理，还必须同时压缩 TTFA，并提高推理-执行闭环的频率。

VLA 的瓶颈在哪里？

当前许多 VLA 都采用基于流匹配（Flow Matching）或 Diffusion 的动作专家来生成动作。

这类模型通常采用恒定时间步调度，动作块中的每一个动作，无论是马上要执行的第一个动作，还是几十步之后才会执行的远期动作，都会使用相同数量的采样步。

如果模型默认使用 10 步采样，那么它必须完成全部 10 步采样之后，才能输出第一个动作。这就形成了一个明显的反应瓶颈：机器人明明只需要第一个动作就可以开始动，却必须等待整个动作块完成全部采样。

于是，一个很自然的问题出现了：为什么近期动作和远期动作需要同等程度的「精雕细琢」？

FASTER 对动作采样过程进行了实验分析，并发现动作块内部存在明显的非均匀性。具体来说，论文使用了平直度（Straightness）指标来衡量流匹配采样路径的弯曲程度。路径越接近直线，说明这个动作越容易通过少量采样步准确生成。

实验结果显示：

早期动作的采样路径更接近直线插值；

早期动作的中间估计结果与最终输出之间的偏差更小；

早期动作的生成复杂度明显低于远期动作。

这也符合物理世界中的直觉：基于当前状态，下一瞬间该怎么动通常约束更强、变化更小；而越远期的动作受到更多未来不确定性的影响，自然更难预测。

既然近期动作更容易预测，而又直接决定机器人的反应速度，那么为什么不让模型优先生成这些动作？

核心创新：Horizon-Aware Schedule

为了解决上述问题，FASTER 提出了 Horizon-Aware Schedule（HAS），思想是解耦动作块中不同时间位置动作的采样进度。HAS 会为动作块中的每一个动作分配一个不同的完成时刻（hit time）。

近期动作使用较少的采样步数，优先生成；远期动作仍然保留较完整的采样过程，保持动作轨迹质量。

这样，模型不再需要等到整个动作块全部采样完成后才输出动作，而是可以先把最关键的即时动作生成出来，让机器人尽快开始响应。

混合调度策略：让预训练模型平滑适应 HAS

直接用 HAS 去微调一个预训练 VLA 模型，可能会带来两个问题。

第一个问题是，现有预训练模型通常是在恒定时间步调度下训练出来的。如果微调时突然切换成动态变化的 HAS，会额外拉大预训练和微调之间的差距。

第二个问题是，在训练中随机采样时间步时，对于近期动作来说，在 HAS 下它们对应的局部时间步有较大概率变成 0，使得这些动作几乎总是直接使用真实动作作为输入，模型反而学不到如何自己生成这些动作。

为了解决这两个问题，FASTER 提出了一种混合调度策略（Mixed Scheduling Strategy）。

具体做法是：给定一个混合概率 p，每个训练样本都有 p 的概率使用 HAS，同时也有 1-p 的概率保留原来的恒定时间步调度。模型在微调时既能学习新的 HAS 时间步参数化方式，也不会完全丢掉预训练阶段熟悉的固定时间步设置。

最重要的是，这个过程不需要修改模型结构，也不会引入额外训练成本，可以直接整合进现有 VLA 的微调流程。

流式推理接口：生成一个，执行一个

有了 HAS 之后，动作可以被渐进式生成。FASTER 因此进一步设计了一个流式客户端-服务器接口（Streaming Client-Server Interface）。

在模型端，一旦某个动作完成采样，就会立即发送给机器人控制器，模型则继续采样和完善后续动作。

机器人客户端则会持续监听来自模型的新动作，并将接收到的动作加入缓冲区，机器人可以一边执行已经收到的动作，一边等待后续动作到来。

此外，FASTER 还引入了早停机制。当执行范围内需要的动作都已完成采样时，模型可以提前终止剩余采样步骤，直接进入下一轮推理准备。这等价于缩短了一次推理-执行周期，从而进一步提高闭环响应频率。

因此，FASTER 不只是降低了第一个动作的生成延迟，也提高了整个系统的更新频率。

实验结果：更低 TTFA，更快反应

FASTER 在两种 GPU 平台上进行了真实测速实验，分别是高性能的 RTX 4090 和消费级的 RTX 4060。

主题：动作|机器人|VLA模型