Soul CEO张璐团队发布开源模型SoulX

速读：SoulCEO张璐团队发布开源模型SoulXSoulCEO张璐团队发布开源模型SoulX-LiveAct。在这一背景下，SoulAppCEO张璐团队对实时数字人生成技术进行了系统性优化，推出开源模型SoulX-LiveAct，进一步完善其在实时数字人生成领域的技术布局。

Soul CEO张璐团队发布开源模型SoulX-LiveAct

2026年05月06日 16:49

2026年05月06日 16:49:20

Soul CEO张璐团队开源SoulX-LiveAct：从“能生成”到“能长时间稳定生成”

随着AI技术在数字人直播、视频播客及实时互动等场景中的加速应用，用户对内容连续性与表现一致性的要求不断提升。在这一背景下，Soul App CEO 张璐团队对实时数字人生成技术进行了系统性优化，推出开源模型SoulX-LiveAct，进一步完善其在实时数字人生成领域的技术布局。

SoulX-LiveAct围绕长时间连续生成这一核心难题，采用自回归扩散（AR Diffusion）作为基础框架，并通过Neighbor Forcing机制和ConvKV Memory机制实现性能提升。模型采用按chunk逐段生成的方式，在每个chunk内部通过扩散模型完成细节建模，并通过上下文信息在chunk之间传递，实现连续流式生成。在此基础上，Neighbor Forcing机制通过对齐同一扩散步的相邻帧latent，使模型在训练与推理阶段保持一致的噪声语义空间，从而降低分布不一致带来的误差累积问题。

与此同时，ConvKV Memory机制对传统注意力机制中的KV缓存进行了结构性优化。该机制将历史信息划分为“短期高精度窗口”与“长期压缩记忆”两部分：前者用于保证局部细节与一致性，后者通过轻量化卷积进行压缩，以固定长度表示历史信息。

为提升长序列稳定性，SoulX-LiveAct引入RoPE Reset机制，对位置编码进行周期性对齐，避免因序列增长带来的位置漂移问题。在训练阶段，模型不仅采用Neighbor Forcing对齐训练分布，还通过构造长序列chunk训练样本，使模型能够在训练过程中直接面对误差累积与纠正过程。同时，引入与推理阶段一致的Memory-Aware训练方式，使模型在压缩记忆条件下仍能保持稳定表现，从源头减少训练与推理不一致带来的性能波动。

在推理性能方面，SoulX-LiveAct将历史上下文从可变缓存转变为固定规模的memory结构，实现了恒定显存推理（即推理显存不会随着视频时长增加而增长）。此外，短期窗口与长期压缩记忆的结合，使每个chunk的计算与通信成本保持稳定，从而避免长视频生成过程中出现延迟累积的问题。在512×512分辨率下，系统可在2×H100/H200条件下实现20 FPS的流式推理，端到端延迟约为0.94秒，单帧计算成本为27.2 TFLOPs。

主题：模型|SoulCEO张璐团队