RSS 2026|强泛化强迁移VLA，上海创智学院×上海交大提出MINT：让VLA从模仿轨迹走向理解意图

2026年06月10日 11:5

机器人视觉语言动作（Vision-Language-Action, VLA）模型越来越多地开始展示叠衣服、倒茶、做咖啡等复杂操作。但是，今天的大多数 VLA 更像 “展台机器人” 。它们在固定场景、固定布局、固定光照下表现惊艳，可一旦真正进入开放环境，就立刻暴露其泛化性问题：物体位置变一点、背景换一下、光照改变一些，VLA 的成功率就会暴跌。对于新任务，往往需要重新收集大量示教轨迹（demonstration），才能让 VLA 学会。

但这些其实只是表面困境。真正困难的，也是 VLA 走向实际应用场景真正需要的，其实是：

组合泛化（Compositional Generalization）：VLA 学会 A、B、C 技能之后，能否自动组合出 A→B、B→C、C→A 等技能？即能否通过组合串联技能，执行长程、复杂的任务？

小样本迁移（Few-shot / One-shot Transfer）：学习新任务是否需要成百上千条演示？能不能像人类一样，看几次示教、甚至只看一次示教，就掌握一个新技能？

主流范式往往过度对齐原始轨迹本身，却缺少对 “轨迹背后意图” 的显式表征与推理，从而在泛化与迁移上受限。

针对上述问题，上海创智学院 × 上海交通大学 x 智动未来提出：

主题：泛化|任务