登录

动作


分类

预测

Action-chunk级权重采用指数衰减(γ=0.8),确保近期动作预测权重更大。
文章

LLaMA-2的浅层输出用于动作路由决策,深层输出用于动作预测。
文章

类型

从任务特性来看,机器人操控存在两种本质不同的动作类型:手臂大幅度运动(粗动作)需要全局场景理解、路径约束宽松;
文章

此外,传统方法缺乏对动作类型的主动感知与路由机制,无法根据当前操控阶段动态分配合适的推理资源,导致在长时程复杂任务中错误率随步骤增加而快速累积。
文章

模型

将两类token分别路由给粗动作和精细动作模型,无需额外的特征对齐训练,即可让模型的「视觉感知」与「操控阶段」高度匹配,为未来VLA模型的视觉编码设计提供了重要的实证依据。
文章

这一设计使「全局感知」与「局部精细」的视觉信息分别流向对应的动作模型。
文章

视觉-语言-动作(VLA)模型正成为机器人智能化的核心架构,但现有主流方法(如OpenVLA、π0、CogACT)存在一个根本性缺陷:用同一个动作模型统一处理所有类型的动作
文章