告别「想完再做」卡顿!清华StreamingVLA让VLA边想边行动,提速2.4倍
作者介绍:本文由清华大学电子工程系 NICS-EFC 实验室与联想合作完成
史奕然 清华大学深圳国际研究生院 数据与信息研究院 电子与通信工程专业在读硕士研究生 导师是廖庆敏教授,研究方向是:视觉 - 文本大模型的高效训练与推理
郭东琦 清华大学电子工程系本科生
赵天辰 清华大学电子工程系高能效计算实验室博士生,导师是汪玉教授,研究方向主要是:基座模型构建的 EfficientML 算法与 Infra 协同优化
视觉 - 语言 - 动作(VLA)模型为具身智能带来了强大的泛化能力,但其 “观测 - 生成 - 执行” 三阶段串行执行的模式,导致机器人 在动作间频繁停顿,严重影响了交互的流畅性与实时性 。针对这一问题,本文提出 StreamingVLA 框架,通过引入 动作流匹配与自适应提前观测 两项技术,分别实现 “生成与执行” 及 “观测与执行” 两个维度的并行处理,使模型能够以 “流式” 方式,异步进行动作的生成和执行。
在 LIBERO 基准测试中,StreamingVLA 在保持 94.9% 高成功率(与基线模型 95.1% 基本持平)的同时,将单动作延迟缩短至 31.6 毫秒,实现 2.4 倍端到端加速,并将执行过程中的卡顿时间从 232.3 毫秒大幅压缩至 36.0 毫秒,降幅达 6.5 倍。在真机实验中,StreamingVLA 使得平均动作延迟由 271.49 毫秒降低到 170.88 毫秒,实现 1.58 倍加速,为 VLA 模型在真实场景中的高效部署提供了新的解决方案。
图:StreamingVLA 的整体框架与效果 首先需要明确当前 VLA 模型部署的核心矛盾,随着 VLA 模型规模的不断扩大,其在实际部署中面临的效率问题日益突出,尤其是在资源受限的边缘设备上,高延迟与执行卡顿成为制约其应用的关键瓶颈。
现有 VLA 模型通常采用同步执行流水线,即 “场景观测 - 动作生成 - 动作执行” 三个阶段依次进行,每一阶段必须等待前一阶段完成后才能开始。动作的生成需要等待场景观测 VLM 处理完成之后才能开始,动作执行需要等待完整的动作生成,而下一轮的场景观测又需要等待全部的动作执行完成。这种串行机制导致机器人在执行过程中频繁停顿,动作缺乏连贯性。以当前主流的 Pi0.5 模型为例,其执行过程中存在的空闲等待时间(即卡顿时间)严重影响了任务的执行流畅度与用户体验。
针对这一问题,本文提出 StreamingVLA,一种支持异步并行执行的 VLA 框架。通过对 VLA 执行流程的系统性分析,识别出造成延迟与卡顿的关键因素,并在此基础上引入两项核心技术:基于状态建模的动作流匹配与动作显著性感知的自适应提前观测。这两项技术分别实现了 “动作生成与动作执行” 以及 “场景观测与动作执行” 两个维度的并行化,从而在不牺牲模型性能的前提下,显著提升执行效率与流畅度。
Arxiv Link: https://arxiv.org/abs/2603.28565
Project Page:https://ghahahahag.github.io/StreamingVLA_Website/
Github Link:https://github.com/gen-robot/StramingVLA
一、系统性分析:识别 VLA 动作卡顿的本质原因,提出延时分析框架
为深入理解 VLA 执行过程中的效率瓶颈,本文首先对以 Pi0.5 为代表的典型 VLA 模型进行了详细的运行时序分析(如下图所示)。该类模型由视觉语言模型(VLM)与基于扩散的动作专家组成,其执行流程可划分为三个主要阶段:
首先,观测阶段中,VLM 根据当前图像、语言指令与机器人状态生成隐层特征(KV Cache);其次,动作生成阶段中,动作专家基于这些特征通过扩散过程生成一个包含多个未来动作的动作块;最后,执行阶段中,机器人依次执行这些动作,完成后进入下一轮循环(如图左下侧所示)。
在传统同步执行模式下,三个阶段严格串行,彼此等待。这意味着在每次动作执行完毕后,系统必须等待下一次观测与动作生成全部完成才能继续执行,由此产生的卡顿时间等于观测时间与动作生成时间之和。实际测试表明,这一等待时间相当可观,是导致机器人动作不连贯的主要根源。
基于上述分析,明确了优化目标:在尽可能保持模型性能的前提下,同时降低每个动作的平均延迟与卡顿时间。为此,本文提出通过重叠不同阶段的时间来替代单纯压缩各阶段延迟的传统思路,希望实现 “动作生成与动作执行” 以及 “场景观测与动作执行” 两个维度的并行化,从而实现 “流式” 执行(如图右下侧)。
图:StreamingVLA 对执行时序的系统性分析与优化 二、方案设计
(一)动作流匹配:实现生成与执行的并行
图:基于状态建模的动作流匹配方法 在传统 VLA 模型的执行流水线中,动作生成与执行阶段严格串行,这是造成系统效率低下的主要原因之一。具体而言,在动作块生成机制下,动作专家通过多步扩散去噪过程一次性生成包含多个未来动作的动作块,只有当整个动作块完全生成后,机器人才能开始执行其中的第一个动作。这种 “先全部生成,再依次执行” 的模式,使得动作生成与执行之间无法产生任何时间重叠。
为此,本文引入了基于状态建模的动作流匹配方法。该方法的核心理念是将动作生成过程从 “一次性生成一个动作块” 转变为 “连续演化一个状态”。模型不再直接预测动作的绝对值,而是维护一个累积了历史动作的 “动作空间状态”,并预测该状态随时间演化的 “速度场”。每一步,模型根据当前状态与观测信息预测速度场,通过简单的时间积分得到当前时刻的动作输出,同时更新状态。这一过程使得每个动作可以在生成后立即被执行,而模型则继续基于更新后的状态生成下一个动作,从而实现了动作生成与执行在时间轴上的无缝重叠。
然而将这一方法适配到大型 VLA 模型与 Libero 复杂基准任务的过程中,面临两个关键挑战。第一,复杂控制场景中模型输出的动作需经过控制器才能转换为物理运动,使得动作与物理状态之间不再保持线性关系。为此,本文对状态建模进行扩展,引入 “动作空间状态” 作为模型内部维护的状态变量,并通过预计算完整轨迹的动作空间状态,确保其在训练过程中与物理空间状态对齐。第二,大型模型中的归一化层会破坏 “状态加动作等于新状态” 这一流匹配框架所依赖的关键可加性。本文对此进行针对性修改,移除偏移项并统一缩放因子,使得归一化后的变量仍然满足可加性,在保持训练稳定的同时完好保留了流匹配的核心数学结构。
通过上述扩展与调整,动作流匹配得以在大型 VLA 模型中成功部署,显著缩短了动作生成与执行之间的等待时间,为实现 “生成 - 执行” 维度的并行奠定了坚实基础。
(二)自适应提前观测:实现观测与执行的并行
图:动作显著性感知的自适应提前观测 在动作流匹配解决了 “生成 - 执行” 并行问题之后,系统延迟的另一主要来源 ——“观测” 与 “执行” 之间的串行等待 —— 便成为进一步优化的关键。若能使 VLM 在机器人尚未完成全部动作时就提前开始下一轮观测的处理,则观测与执行的时间便能够产生重叠,从而进一步缩短卡顿时间。提前观测技术正是针对这一目标提出的,其核心思想是在机器人执行当前动作块的部分动作后即开始下一轮观测的 VLM 推理。
然而直接进行朴素的提前观测会导致获得错误的场景信息,最终导致模型性能的显著下降。因此本文提出一种自适应的提前观测方法,根据动作显著性来动态决定是否提前观测。
动作显著性,即某一动作对后续观测结果的影响程度。高显著性动作(如大幅度移动)会引发环境的剧烈变化,若在尚未执行此类动作时就提前观测,VLM 得到的环境信息与实际物理环境之间将出现严重不匹配,生成的后续动作自然难以准确。相反,低显著性动作对环境变化影响甚微,提前观测造成的误差也相应较小。
为了量化动作显著性这一指标,本文设计了一个基于 Transformer 的轻量级预测器,用于动态评估尚未执行的动作的显著性。该预测器以当前时刻的图像 embedding 和剩余未执行的动作序列作为输入,输出执行这些动作后图像 embedding 的预测变化量。预测器以实际执行后观测到的图像 embedding 变化作为监督信号进行训练,其参数量远小于完整 VLM,训练成本也相对较低。在推理阶段,系统调用该预测器估算剩余动作的显著性:若预测变化量低于预设阈值,则提前启动下一轮观测,实现观测与执行的并行;若高于阈值,则等待动作执行完毕后再进行观测,以确保 VLM 获取准确的环境信息。该预测器运行时的额外开销仅占模型总推理时间的约 5%,训练成本也远低于全模型微调,却能带来可观的加速收益。
三、实验结果:双重优异的性能与效率
(一)模拟环境测试
本文在 LIBERO 仿真环境的四个任务集上对 StreamingVLA 进行了全面评估。实验结果表明,StreamingVLA 在保持与基线模型(Pi0.5)相当的成功率(94.9%)的前提下,实现了显著的效率提升。相较于一次观测生成 10 个动作的 Pi0.5(h=10),单动作延迟从 49.9 毫秒降低至 31.6 毫秒,实现了 1.57 倍的加速;卡顿时间从 230.8 毫秒锐减至 36.0 毫秒,降幅达 6.45 倍。