RSS 2026|强泛化强迁移VLA,上海创智学院×上海交大提出MINT:让VLA从模仿轨迹走向理解意图
2026年06月10日 11:5
机器人视觉语言动作(Vision-Language-Action, VLA)模型越来越多地开始展示叠衣服、倒茶、做咖啡等复杂操作。但是, 今天的大多数 VLA 更像 “展台机器人” 。它们在 固定场景、固定布局、固定光照 下表现惊艳,可一旦真正进入开放环境,就立刻暴露其泛化性问题:物体位置变一点、背景换一下、光照改变一些,VLA 的成功率就会暴跌。对于新任务,往往需要重新收集大量示教轨迹(demonstration),才能让 VLA 学会。
但这些其实只是表面困境。真正困难的,也是 VLA 走向实际应用场景真正需要的,其实是:
组合泛化(Compositional Generalization) :VLA 学会 A、B、C 技能之后,能否自动组合出 A→B、B→C、C→A 等技能?即能否通过组合串联技能,执行长程、复杂的任务?
小样本迁移(Few-shot / One-shot Transfer) :学习新任务是否需要成百上千条演示?能不能像人类一样,看几次示教、 甚至只看一次示教,就掌握一个新技能?
主流范式往往过度对齐原始轨迹本身,却缺少对 “轨迹背后意图” 的显式表征与推理,从而在泛化与迁移上受限。
针对上述问题,上海创智学院 × 上海交通大学 x 智动未来 提出: