Soul App发布SoulX-LiveAct开源模型，优化实时数字人生成技术

速读：SoulApp发布SoulX-LiveAct开源模型，优化实时数字人生成技术2026年05月08日20:34AI云科技汇近期，SoulAppAI团队（SoulAILab）正式发布开源模型SoulX-LiveAct。

2026年05月08日 20:34

近期，Soul App AI团队（Soul AI Lab）正式发布开源模型SoulX-LiveAct。作为面向实时数字人生成的新方案，该模型围绕长时稳定性与实时推理能力展开技术创新，在自回归扩散（AR Diffusion）框架下实现突破，进一步完善了实时交互类数字人技术体系。

长期以来，实时数字人生成面临两个关键限制：一是显存占用随时间增长而不断扩大，导致系统难以支撑长视频生成；二是在生成长视频过程中，人物身份与细节容易出现漂移，影响整体表现。SoulX-LiveAct从底层结构出发，针对这两个问题进行了系统性改进。在显存管理方面，模型不再依赖传统线性增长的KV cache，而是通过重构条件传播方式与历史信息管理机制，实现了在长时间生成过程中显存保持稳定。Soul App AI团队的这一设计使系统能够在更长时间窗口内持续运行，而无需因资源限制中断或简化历史信息。

在实时性能方面，SoulX-LiveAct同样表现出较高的工程可行性。在512×512分辨率下，模型仅需2张H100或H200即可实现20 FPS的流式推理能力，端到端延迟约为0.94秒。同时，单帧计算成本控制在27.2 TFLOPs/frame的水平，在保证实时性的同时降低了整体算力压力，为实际部署提供了更具可操作性的方案。

除了资源效率与实时能力，长时一致性是评估数字人系统的重要维度。SoulX-LiveAct在这一方面通过结构优化实现了稳定表现。在长时间生成过程中，模型能够维持人物身份一致性，并减少发型、服饰、配饰等细节的漂移现象，同时保证口型与语音的匹配程度。相比常见方法在长时段内容中逐步出现的“失真”问题，该模型在更长时间范围内保持了稳定输出。

从技术实现路径来看，SoulX-LiveAct基于AR Diffusion范式，通过分块生成与上下文承接构建完整的流式推理过程。在此基础上，Soul App 团队为模型引入Neighbor Forcing与ConvKV Memory两项核心机制。Neighbor Forcing通过在同一扩散步下传播相邻帧latent的信息，使模型在训练与推理阶段保持一致的语义空间，从而降低误差累积带来的不稳定性。ConvKVMemory则将历史记忆从线性增长的缓存结构转变为“短期精确+长期压缩”的组合形式，在保证局部细节的同时压缩远期信息，使显存占用维持在可控范围内。此外，通过RoPE Reset对位置编码进行对齐处理，进一步减少长序列中的位置漂移问题。

主题：模型|SoulX-LiveAct