ICLR 2026|世界模型卡在多机器人协作？一个「顺序分解」思路打通

2026年04月02日 13:5

赵子杰，中国科学院自动化研究所博士生，导师为赵冬斌研究员和朱圆恒副研究员。本科毕业于电子科技大学并获得荣誉学位（Top 0.7%）。主要研究方向为强化学习、世界模型和机器人学习，重点关注融合学习、规划与控制的方法，以实现鲁棒且可扩展的真实世界机器人智能。

近年来， Decision-Coupled World Model 与 Model-based RL 在机器人领域取得了显著成功。通过学习环境动力学模型，智能体能够在内部模拟未来，从而进行规划与决策。但当系统从单机器人扩展到多机器人时，问题开始变得棘手。

在多机器人系统中，世界的变化不再由单独个体决定，而是由多个个体共同作用。于是，一个关键问题是：如何让世界模型能够理解多机器人系统的联合动力学？

为了解决这一挑战，中科院自动化所深度强化学习团队提出 SeqWM，对多机器人联合动力学进行顺序式的因果条件化分解，使机器人能够在意图共享的基础上进行协同规划。该成果已被 ICLR 2026 接收，并在评审中获得 8 / 8 / 8 / 2 的评分。