登录

Soul App开源SoulX-FlashHead,让实时数字人技术从机房走向个人工作站


速读:SoulApp开源SoulX-FlashHead,让实时数字人技术从机房走向个人工作站2026年04月23日19:59AI云科技汇近日,SoulApp在实时数字人领域取得新的技术进展——其旗下SoulAILab正式开源实时数字人生成模型SoulX-FlashHead。
2026年04月23日 19:59

近日,Soul App在实时数字人领域取得新的技术进展——其旗下 Soul AI Lab 正式开源实时数字人生成模型 SoulX-FlashHead。该模型以 1.3B 参数规模,实现了在单张消费级显卡 RTX 4090 上稳定运行 96FPS 的工业级速度,同时兼顾画质表现,为实时数字人从专业算力环境走向更广泛应用场景提供了新的技术路径。

在此之前,Soul AI Lab 已于今年1月开源实时数字人模型 SoulX-FlashTalk。该模型以 0.87 秒的亚秒级延时、32FPS 的高帧率以及对超长视频稳定生成的支持,引发了行业对实时数字人技术可落地性的关注。相较于SoulX-FlashTalk,SoulX-FlashHead的核心突破在于进一步降低硬件门槛,将高保真实时生成能力从集中式算力环境延伸至个人工作站,使实时数字人不再局限于特定场景。例如,在7×24小时矩阵直播场景中,个人主播仅需一台游戏级PC,即可搭建高保真电商直播环境;在游戏领域,该模型体量小、易集成,能够支持 NPC 毫秒级响应,并避免对核心渲染资源造成占用;在教育场景中,模型支持 15 种语言的实时驱动,将音频转化为同步的数字人教学画面,适用于 AI 一对一外教等互动需求。

在具体性能表现上,SoulX-FlashHead 针对不同需求提供了 Lite 与 Pro 两个版本。Lite版本以高速率为目标,在单卡 RTX 4090 上可实现 96FPS 的推理速度,仅占用 6.4G 显存,并支持最高3路并发,使实时数字人首次具备在消费级终端规模化运行的可行性。Pro 版本则更注重画质,在单卡 RTX 5090 上可实现 16.8FPS,双卡条件下帧率可稳定在 25FPS 以上,其在视觉质量与唇形一致性指标上的表现达到SOTA。

在模型设计层面,针对长视频生成中常见的身份漂移问题,团队引入了双向蒸馏机制,通过具备全局视角的教师模型对生成过程进行强约束,使人物特征在长时间输出中保持稳定。与此同时,模型在流式生成中采用时序音频上下文缓存策略,强制保留 8 秒历史音频特征,用以弥补短音频切片带来的上下文缺失,从而改善口型抖动和同步偏差问题,提升整体观看体验。

主题:模型|SoulX-FlashHead|使实时数字人