倾听

UniLS（UnifiedListeningandSpeaking），首个仅凭双轨音频即可端到端同时驱动说话和倾听面部动作的统一框架。

文章

架构在Stage1基础上新增两个交叉注意力层：一个关注说话者A自身的音频（驱动口型同步和面部表情），另一个关注说话者B的音频（调制倾听反应）。

文章

然而，现有方法大多只关注单向生成：speak-only方法（如ARTalk、DiffPoseTalk等）仅生成说话动作，listen-only方法仅生成倾听反应，二者无法在统一框架内协同工作。

文章

为什么直接端到端训练会导致倾听僵硬？

文章

该方法在说话精度上达到SOTA，倾听自然度分布指标提升高达44.1%，同时支持500+FPS的实时生成，已被CVPR2026录用。

文章