Soul App发布SoulX-LiveAct开源模型,优化实时数字人生成技术
近期,Soul App AI团队(Soul AI Lab)正式发布开源模型SoulX-LiveAct。作为面向实时数字人生成的新方案,该模型围绕长时稳定性与实时推理能力展开技术创新,在自回归扩散(AR Diffusion)框架下实现突破,进一步完善了实时交互类数字人技术体系。
长期以来,实时数字人生成面临两个关键限制:一是显存占用随时间增长而不断扩大,导致系统难以支撑长视频生成;二是在生成长视频过程中,人物身份与细节容易出现漂移,影响整体表现。SoulX-LiveAct从底层结构出发,针对这两个问题进行了系统性改进。在显存管理方面,模型不再依赖传统线性增长的KV cache,而是通过重构条件传播方式与历史信息管理机制,实现了在长时间生成过程中显存保持稳定。Soul App AI团队的这一设计使系统能够在更长时间窗口内持续运行,而无需因资源限制中断或简化历史信息。
在实时性能方面,SoulX-LiveAct同样表现出较高的工程可行性。在512×512分辨率下,模型仅需2张H100或H200即可实现20 FPS的流式推理能力,端到端延迟约为0.94秒。同时,单帧计算成本控制在27.2 TFLOPs/frame的水平,在保证实时性的同时降低了整体算力压力,为实际部署提供了更具可操作性的方案。
除了资源效率与实时能力,长时一致性是评估数字人系统的重要维度。SoulX-LiveAct在这一方面通过结构优化实现了稳定表现。在长时间生成过程中,模型能够维持人物身份一致性,并减少发型、服饰、配饰等细节的漂移现象,同时保证口型与语音的匹配程度。相比常见方法在长时段内容中逐步出现的“失真”问题,该模型在更长时间范围内保持了稳定输出。
从技术实现路径来看,SoulX-LiveAct基于AR Diffusion范式,通过分块生成与上下文承接构建完整的流式推理过程。在此基础上,Soul App 团队为模型引入Neighbor Forcing与ConvKV Memory两项核心机制。Neighbor Forcing通过在同一扩散步下传播相邻帧latent的信息,使模型在训练与推理阶段保持一致的语义空间,从而降低误差累积带来的不稳定性。ConvKVMemory则将历史记忆从线性增长的缓存结构转变为“短期精确+长期压缩”的组合形式,在保证局部细节的同时压缩远期信息,使显存占用维持在可控范围内。此外,通过RoPE Reset对位置编码进行对齐处理,进一步减少长序列中的位置漂移问题。
主题:模型|SoulX-LiveAct