ICLR 2026|世界模型卡在多机器人协作?一个「顺序分解」思路打通
2026年04月02日 13:5
赵子杰,中国科学院自动化研究所博士生,导师为赵冬斌研究员和朱圆恒副研究员。本科毕业于电子科技大学并获得荣誉学位(Top 0.7%)。主要研究方向为强化学习、世界模型和机器人学习,重点关注融合学习、规划与控制的方法,以实现鲁棒且可扩展的真实世界机器人智能。
近年来, Decision-Coupled World Model 与 Model-based RL 在机器人领域取得了显著成功。通过学习环境动力学模型,智能体能够在内部模拟未来,从而进行规划与决策。但当系统 从单机器人扩展到多机器人 时,问题开始变得棘手。
在多机器人系统中,世界的变化不再由单独个体决定,而是由多个个体共同作用。于是,一个关键问题是: 如何让世界模型能够理解多机器人系统的联合动力学 ?
为了解决这一挑战,中科院自动化所深度强化学习团队提出 SeqWM,对多机器人联合动力学进行顺序式的因果条件化分解,使机器人能够在意图共享的基础上进行协同规划。该成果已被 ICLR 2026 接收,并在评审中获得 8 / 8 / 8 / 2 的评分。