网易有道近日发布“子曰4.0”TTS语音合成引擎Confucius4-TTS,并已将该模型全量开源。
据官方介绍,这是业内首个支持14种语言跨语种无口音、且无需参考文本即可完成语音克隆的开源模型。
用户仅需提供3秒音频素材,无需参考文本与前期训练,模型即可完成音色克隆,官方称克隆音色与原声相似度超过85%,克隆任务准确度达97%。
输入中文音频后,模型能够以原声音色输出其他13种目标语言的语音,全程保持音色一致。模型还可自动提取参考音频中的情感特征,实现语调、韵律与情绪的跨语种迁移。
在底层架构上,Confucius4-TTS采用1.3B参数规模,引入GPT式语义大模型作为主干,搭配基于SSL预训练特征和ECAPA-TDNN的可学习说话人编码器,并采用Flow Matching流匹配生成框架,不再沿用传统的声码器方案。
相较于网易有道此前的EmotiVoice仅支持训练集内音色且无法克隆,Confucius4-TTS实现了零样本语音克隆的跨越。
模型采用Apache 2.0开源协议,商用无限制,开发者可下载54GB完整资源包进行本地离线部署。GitHub仓库已面向全球开发者开放。
目前开源语音克隆赛道已有多款成熟方案。Fish-Speech训练数据超过1000万小时,支持约50种语言,采用双自回归架构;GPT-SoVITS在GitHub拥有超过4.5万星标,支持5秒零样本克隆。
Chatterbox支持23种语言,需要5到10秒参考音频;阿里的CosyVoice则需要10到20秒音频样本;Zyphra的ZONOS2为8B参数的MoE架构模型。
Confucius4-TTS在克隆速度(3秒)和免参考文本两个维度上具备差异化优势。
不过该模型也存在一些待验证之处,54GB的完整资源包对本地部署的硬件门槛要求较高,普通开发者可能难以直接运行。官方公布的85%相似度和97%准确度均为自测数据,缺乏第三方独立评测验证。
有技术博主实测后表示,虽整体听感自然流畅,但无法100%复刻细微音色。此外,模型仅支持14种语言,在语种覆盖上不及Fish-Speech的50种和Chatterbox的23种。
从行业趋势来看,2026年开源语音克隆模型正朝着更大参数规模、更低克隆门槛和更强多语言能力演进。
Confucius4-TTS的发布为开发者提供了新的选择,但其实际表现和社区生态的建设仍需时间检验。



