Soul开源实时数字人生成模型SoulXFlashTalk
2026-04-24 16:54 Soul

Soul开源实时数字人生成模型SoulXFlashTalk23

4月,Soul AI Lab开源了一个14B参数的实时数字人生成模型SoulXFlashTalk。Soul本身是一个以兴趣图谱和虚拟身份为核心的在线社交平台,用户规模不小,其AI Lab近年来持续投入生成式AI研究。这次开源的模型把首帧响应时间压到了亚秒级别,直播画面的高帧率也做到了32fps。

大模型做长视频生成,几乎都会遇到一个问题,生成到后面,人脸开始慢慢崩坏。核心原因在于这类模型通常被设计成严格的单向因果结构。生成下一帧时只能看已经生成的历史画面,无法参考当前片段内隐含的未来信息。

这种结构能满足流式推理的需求,但信息流动不够充分,长序列中的误差会不断累积,最终导致身份漂移和画质下降。

SoulXFlashTalk走了一条不同的路。它在每个视频块内部完全保留了双向注意力机制,让一帧的生成同时参考过去和该块内隐含的未来上下文。为了让这个设计在实际工程中跑通,团队没有直接从零训练一个轻量模型,而是站在一个高质量14B大模型的基础上做了实时化改造。

两阶段蒸馏策略分步推进。第一阶段让大模型适配低分辨率短时间预测的约束,第二阶段通过自纠正双向蒸馏把推理步数压缩下来,同时引导模型学习修正长序列中自己产生的误差。

比起需要上万步训练的蒸馏方案,这套方法仅需1.2k步就能收敛。在配套的全栈推理加速引擎上,团队还落地了混合序列并行和并行VAE解码等优化。

从实验数据看,SoulXFlashTalk在TalkBench数据集上的音频同步得分ASE为3.51,图像质量得分IQA为4.79。身份一致性指标Subject C达到99.22,全身动作灵活性和画面稳定性的平衡也超出预期。

对开发者来说,开源意味着可以更直接地把模型用在电商直播、智能客服、在线教育这些方向。

长远来看,一套能让14B大模型跑出亚秒级延迟的技术方案本身就是一种基础设施,它能降低整个行业的研发门槛,让更多中小团队有机会参与到高保真实时数字人的创新中。

Soul AI Lab此前已经开源了语音合成模型SoulXPodcast,这次的模型刚好补上视觉侧,构成了语音加视觉的双模态开源矩阵。

对于高速变化的AI行业而言,商业逻辑往往要求抢先占位,但技术开源意味着暂时放下商业层面的隐形制高点。面对这种情况,无论是产业方还是创作者,为何不尝试去直接触及这些前沿的开源成果。

88.jpg