登录

动作


分类

生成

为此,本文提出通过重叠不同阶段的时间来替代单纯压缩各阶段延迟的传统思路,希望实现“动作生成与动作执行”以及“场景观测与动作执行”两个维度的并行化,从而实现“流式”执行(如图右下侧)。
文章

其次,动作生成阶段中,动作专家基于这些特征通过扩散过程生成一个包含多个未来动作动作块;
文章

动作的生成需要等待场景观测VLM处理完成之后才能开始,动作执行需要等待完整的动作生成,而下一轮的场景观测又需要等待全部的动作执行完成。
文章

在传统VLA模型的执行流水线中,动作生成与执行阶段严格串行,这是造成系统效率低下的主要原因之一。
文章

现有VLA模型通常采用同步执行流水线,即“场景观测-动作生成-动作执行”三个阶段依次进行,每一阶段必须等待前一阶段完成后才能开始。
文章

该方法的核心理念是将动作生成过程从“一次性生成一个动作块”转变为“连续演化一个状态”。
文章

这一过程使得每个动作可以在生成后立即被执行,而模型则继续基于更新后的状态生成下一个动作,从而实现了动作生成与执行在时间轴上的无缝重叠。
文章

这两项技术分别实现了“动作生成与动作执行”以及“场景观测与动作执行”两个维度的并行化,从而在不牺牲模型性能的前提下,显著提升执行效率与流畅度。
文章

这意味着在每次动作执行完毕后,系统必须等待下一次观测与动作生成全部完成才能继续执行,由此产生的卡顿时间等于观测时间与动作生成时间之和。
文章

这种“先全部生成,再依次执行”的模式,使得动作生成与执行之间无法产生任何时间重叠。
文章

通过上述扩展与调整,动作流匹配得以在大型VLA模型中成功部署,显著缩短了动作生成与执行之间的等待时间,为实现“生成-执行”维度的并行奠定了坚实基础。
文章

针对这一问题,本文提出StreamingVLA框架,通过引入动作流匹配与自适应提前观测两项技术,分别实现“生成与执行”及“观测与执行”两个维度的并行处理,使模型能够以“流式”方式,异步进行动作的生成和执行。
文章

流匹配

为此,本文引入了基于状态建模的动作流匹配方法。
文章

动作流匹配解决了“生成-执行”并行问题之后,系统延迟的另一主要来源——“观测”与“执行”之间的串行等待——便成为进一步优化的关键。
文章

通过对VLA执行流程的系统性分析,识别出造成延迟与卡顿的关键因素,并在此基础上引入两项核心技术:基于状态建模的动作流匹配与动作显著性感知的自适应提前观测。
文章

(一)动作流匹配:实现生成与执行的并行图:基于状态建模的动作流匹配方法
文章

显著性

为了量化动作显著性这一指标,本文设计了一个基于Transformer的轻量级预测器,用于动态评估尚未执行的动作的显著性。
文章

动作显著性,即某一动作对后续观测结果的影响程度。
文章

因此本文提出一种自适应的提前观测方法,根据动作显著性来动态决定是否提前观测。
文章

在推理阶段,系统调用该预测器估算剩余动作的显著性:若预测变化量低于预设阈值,则提前启动下一轮观测,实现观测与执行的并行;
文章

(二)自适应提前观测:实现观测与执行的并行图:动作显著性感知的自适应提前观测
文章

执行”两个维度

执行

若高于阈值,则等待动作执行完毕后再进行观测,以确保VLM获取准确的环境信息。
文章

动作

具体而言,在动作块生成机制下,动作专家通过多步扩散去噪过程一次性生成包含多个未来动作动作块,只有当整个动作块完全生成后,机器人才能开始执行其中的第一个动作
文章

该预测器以当前时刻的图像embedding和剩余未执行的动作序列作为输入,输出执行这些动作后图像embedding的预测变化量。
文章

二是更重要的,把不同模态、不同频率的数据,在毫秒级做时空对齐,让一帧画面、一个动作、一次力反馈真正对应到同一个「物理瞬间」。
文章

它以视觉观测和自然语言指令为输入,融合感知信息,直接生成控制机器人的动作,通俗地说,就是机器人的“大脑模型”。
文章

我们可以看到,一些团队机器人的动作在强化学习算法和本体能力的加持下,已经非常可靠,但是依然无法在实际场景落地干活和稳定应用。
文章

@德康张刚佑的学员们分为虎、鹿、熊、猿、鹤五大“门派”,身着对应动物元素帽子,展示招牌五禽戏动作
文章

区域银行持续落地的高管增持动作源于2025年年底的银行“增持潮”。
文章

随着银行高管及大股东增持动作落地,投资者密切关注银行股在二级市场的反应,近期部分投资者公开询问关于股价和市值管理等问题。
文章

上述两名高管增持是常熟银行2025年11月披露的高管增持计划的一部分,该行还有多位高管的增持动作正在推进中。
文章

沃飞长空冲击A股“低空经济第一股”动作不断!
文章

Pi0.5

相较于一次观测生成10个动作的Pi0.5(h=10),单动作延迟从49.9毫秒降低至31.6毫秒,实现了1.57倍的加速;
文章

效果

在传统VLA模型的执行流水线中,动作生成与执行阶段严格串行,这是造成系统效率低下的主要原因之一。
文章

相反,低显著性动作对环境变化影响甚微,提前观测造成的误差也相应较小。
文章