登录

ICLR 2026|世界模型卡在多机器人协作?一个「顺序分解」思路打通


2026年04月02日 13:5

赵子杰,中国科学院自动化研究所博士生,导师为赵冬斌研究员和朱圆恒副研究员。本科毕业于电子科技大学并获得荣誉学位(Top 0.7%)。主要研究方向为强化学习、世界模型和机器人学习,重点关注融合学习、规划与控制的方法,以实现鲁棒且可扩展的真实世界机器人智能。

近年来, Decision-Coupled World Model  与  Model-based RL  在机器人领域取得了显著成功。通过学习环境动力学模型,智能体能够在内部模拟未来,从而进行规划与决策。但当系统 从单机器人扩展到多机器人 时,问题开始变得棘手。

在多机器人系统中,世界的变化不再由单独个体决定,而是由多个个体共同作用。于是,一个关键问题是: 如何让世界模型能够理解多机器人系统的联合动力学 ?

为了解决这一挑战,中科院自动化所深度强化学习团队提出 SeqWM,对多机器人联合动力学进行顺序式的因果条件化分解,使机器人能够在意图共享的基础上进行协同规划。该成果已被  ICLR 2026  接收,并在评审中获得  8 / 8 / 8 / 2  的评分。

主题:世界|世界模型|规划