Soul开源实时数字人生成模型SoulXFlashTalk_科技

Soul开源实时数字人生成模型SoulXFlashTalk

2026-04-24 16:54 Soul

Soul开源实时数字人生成模型SoulXFlashTalk23

4月，Soul AI Lab开源了一个14B参数的实时数字人生成模型SoulXFlashTalk。Soul本身是一个以兴趣图谱和虚拟身份为核心的在线社交平台，用户规模不小，其AI Lab近年来持续投入生成式AI研究。这次开源的模型把首帧响应时间压到了亚秒级别，直播画面的高帧率也做到了32fps。

大模型做长视频生成，几乎都会遇到一个问题，生成到后面，人脸开始慢慢崩坏。核心原因在于这类模型通常被设计成严格的单向因果结构。生成下一帧时只能看已经生成的历史画面，无法参考当前片段内隐含的未来信息。

这种结构能满足流式推理的需求，但信息流动不够充分，长序列中的误差会不断累积，最终导致身份漂移和画质下降。

SoulXFlashTalk走了一条不同的路。它在每个视频块内部完全保留了双向注意力机制，让一帧的生成同时参考过去和该块内隐含的未来上下文。为了让这个设计在实际工程中跑通，团队没有直接从零训练一个轻量模型，而是站在一个高质量14B大模型的基础上做了实时化改造。

两阶段蒸馏策略分步推进。第一阶段让大模型适配低分辨率短时间预测的约束，第二阶段通过自纠正双向蒸馏把推理步数压缩下来，同时引导模型学习修正长序列中自己产生的误差。

比起需要上万步训练的蒸馏方案，这套方法仅需1.2k步就能收敛。在配套的全栈推理加速引擎上，团队还落地了混合序列并行和并行VAE解码等优化。

从实验数据看，SoulXFlashTalk在TalkBench数据集上的音频同步得分ASE为3.51，图像质量得分IQA为4.79。身份一致性指标Subject C达到99.22，全身动作灵活性和画面稳定性的平衡也超出预期。

对开发者来说，开源意味着可以更直接地把模型用在电商直播、智能客服、在线教育这些方向。

长远来看，一套能让14B大模型跑出亚秒级延迟的技术方案本身就是一种基础设施，它能降低整个行业的研发门槛，让更多中小团队有机会参与到高保真实时数字人的创新中。

Soul AI Lab此前已经开源了语音合成模型SoulXPodcast，这次的模型刚好补上视觉侧，构成了语音加视觉的双模态开源矩阵。

对于高速变化的AI行业而言，商业逻辑往往要求抢先占位，但技术开源意味着暂时放下商业层面的隐形制高点。面对这种情况，无论是产业方还是创作者，为何不尝试去直接触及这些前沿的开源成果。

［本文作者i黑马，i黑马原创。如需转载请联系微信公众号（ID:iheima）授权，未经授权，转载必究。］