登录

打通视频生成与机器人世界模型,BridgeV 2 W让机器人学会"预演未来"


速读:那么,能否赋予机器人同样的“预演能力”,先在“脑海”中模拟动作后果,再付诸执行? 为了解决上述问题,具身智能公司中科第五纪联合中科院自动化所团队推出BridgeV2W,它通过一个极为优雅的设计,具身掩码(EmbodimentMask),一种由机器人动作渲染出的“动作剪影”,将坐标空间的动作无缝映射到像素空间,从而真正打通预训练视频生成模型与世界模型之间的桥梁,让机器人学会可靠地“预演未来”。 DROID是目前最大规模的真实世界机器人操作数据集之一,数据采集跨越多个实验室和环境。 打通视频生成与机器人世界模型,BridgeV2W让机器人学会"预演未来"2026年02月10日19:22雷锋网机器人如何"脑补"未来? 这就是具身世界模型要做的事情:让机器人在行动前,就能“看见”未来。
2026年02月10日 19:22

机器人如何"脑补"未来?

想象一下,你面前摆着一杯咖啡,你伸手去拿,在你的手真正触碰到杯子之前,你的大脑已经在"脑补"了整个过程:手臂将如何移动、杯子会是什么触感、抬起后桌面的样子……这种对未来场景的想象和预测能力,正是人类操控世界的核心认知基石。

那么,能否赋予机器人同样的“预演能力”,先在“脑海”中模拟动作后果,再付诸执行?这就是具身世界模型要做的事情:让机器人在行动前,就能“看见”未来。近年来,借助大规模视频生成模型(如Sora、Wan等)强大的视觉先验,这一方向取得了令人瞩目的进展。

然而,一个尴尬的问题始终悬而未决: 视频生成模型的世界由像素编织而成,而机器人的语言却是关节角度与位姿坐标,它们使用完全不同的“表征语言”描述同一个物理世界。

为了解决上述问题,具身智能公司中科第五纪联合中科院自动化所团队推出 BridgeV2W,它通过一个极为优雅的设计,具身掩码(Embodiment Mask),一种由机器人动作渲染出的“动作剪影”,将坐标空间的动作无缝映射到像素空间,从而真正打通预训练视频生成模型与世界模型之间的桥梁,让机器人学会可靠地“预演未来”。

困境:三座大山挡住了机器人的"预演能力"

尽管前景广阔,当前的具身世界模型仍面临三大核心挑战:

1.  动作与画面“语言不通” 。 机器人动作是关节角、末端位姿等坐标数值,而视频生成模型只“看”像素。直接拼接动作向量效果有限,往往缺乏空间对齐的“硬连接”,模型难以理解。

2.  视角一变,世界就“崩” 。同一动作在不同视角下外观迥异。现有方法在训练视角上尚可,一旦换视角,预测质量骤降,而真实场景中,相机位置几乎不可能复现训练设置。

3.  换一个机器人就得“从零开始” 。 单臂、双臂、移动底盘……结构千差万别。现有方法往往需为每种机器人定制架构,难以构建统一的世界模型。

核心创新:仅凭"动作剪影",一举破解三大难题

BridgeV2W 的核心洞察极其直觉:既然鸿沟源于“坐标 vs 像素”,那就把动作直接“画”进画面里!

它提出具身掩码:利用机器人的 URDF 模型和相机参数,将动作序列实时渲染为每帧图像上的二值“动作剪影”,精准标出机器人在画面中的位置与姿态。

这一设计,一举破解前述三大难题:

动作-像素对齐 : 掩码是天然的像素级信号,与视频模型输入空间完全匹配,无需模型“猜”坐标的含义。

视角自适应 : 掩码随当前相机视角动态生成,动作与画面始终对齐,模型因此天然泛化到任意新视角。

跨具身通用 : 只要提供 URDF,单臂、双臂机器人都能用同一套框架生成对应掩码,无需修改模型结构。

技术上,BridgeV2W 采用 ControlNet 式的旁路注入,将掩码作为条件信号融入预训练视频生成模型,在保留其强大视觉先验的同时,赋予其理解机器人动作的能力。此外,为防止模型“偷懒”(只复现静态背景),还引入光流驱动的运动损失,引导其聚焦于任务相关的动态区域。

实验结果:多场景、多机器人、多视角的全面验证

研究团队在多个设置下系统验证了BridgeV2W的能力,涵盖不同机器人平台、不同操作场景、未见视角和下游任务应用。

DROID数据集:大规模单臂操作

DROID是目前最大规模的真实世界机器人操作数据集之一,数据采集跨越多个实验室和环境。BridgeV2W在该数据集上的表现尤为亮眼,在 PSNR、SSIM、LPIPS 等核心指标上超越 SOTA 方法。

尤其在“未见视角”测试中,对比方法常出现画面崩塌、肢体错位,而 BridgeV2W 依然生成物理合理、视觉连贯的未来视频,充分验证了其视角鲁棒性。在“未见场景”(全新桌面布局、背景)下,泛化能力同样出色。

主题:机器人|动作|世界|世界模型|未来|BridgeV2W