登录

Soul CEO张璐团队发布开源模型SoulX


速读:SoulCEO张璐团队发布开源模型SoulXSoulCEO张璐团队发布开源模型SoulX-LiveAct。 在这一背景下,SoulAppCEO张璐团队对实时数字人生成技术进行了系统性优化,推出开源模型SoulX-LiveAct,进一步完善其在实时数字人生成领域的技术布局。
Soul CEO张璐团队发布开源模型SoulX-LiveAct

Soul CEO张璐团队发布开源模型SoulX-LiveAct

2026年05月06日 16:49

2026年05月06日 16:49:20

Soul CEO张璐团队开源SoulX-LiveAct:从“能生成”到“能长时间稳定生成”

随着AI技术在数字人直播、视频播客及实时互动等场景中的加速应用,用户对内容连续性与表现一致性的要求不断提升。在这一背景下,Soul App CEO 张璐团队对实时数字人生成技术进行了系统性优化,推出开源模型SoulX-LiveAct,进一步完善其在实时数字人生成领域的技术布局。

SoulX-LiveAct围绕长时间连续生成这一核心难题,采用自回归扩散(AR Diffusion)作为基础框架,并通过Neighbor Forcing机制和ConvKV Memory机制实现性能提升。模型采用按chunk逐段生成的方式,在每个chunk内部通过扩散模型完成细节建模,并通过上下文信息在chunk之间传递,实现连续流式生成。在此基础上,Neighbor Forcing机制通过对齐同一扩散步的相邻帧latent,使模型在训练与推理阶段保持一致的噪声语义空间,从而降低分布不一致带来的误差累积问题。

与此同时,ConvKV Memory机制对传统注意力机制中的KV缓存进行了结构性优化。该机制将历史信息划分为“短期高精度窗口”与“长期压缩记忆”两部分:前者用于保证局部细节与一致性,后者通过轻量化卷积进行压缩,以固定长度表示历史信息。

为提升长序列稳定性,SoulX-LiveAct引入RoPE Reset机制,对位置编码进行周期性对齐,避免因序列增长带来的位置漂移问题。在训练阶段,模型不仅采用Neighbor Forcing对齐训练分布,还通过构造长序列chunk训练样本,使模型能够在训练过程中直接面对误差累积与纠正过程。同时,引入与推理阶段一致的Memory-Aware训练方式,使模型在压缩记忆条件下仍能保持稳定表现,从源头减少训练与推理不一致带来的性能波动。

在推理性能方面,SoulX-LiveAct将历史上下文从可变缓存转变为固定规模的memory结构,实现了恒定显存推理(即推理显存不会随着视频时长增加而增长)。此外,短期窗口与长期压缩记忆的结合,使每个chunk的计算与通信成本保持稳定,从而避免长视频生成过程中出现延迟累积的问题。在512×512分辨率下,系统可在2×H100/H200条件下实现20 FPS的流式推理,端到端延迟约为0.94秒,单帧计算成本为27.2 TFLOPs。

主题:模型|SoulCEO张璐团队