网易有道开源Confucius4-TTS，3 秒音频即可克隆音色_科技

网易有道开源Confucius4-TTS，3 秒音频即可克隆音色

2026-06-25 11:41 网易有道

网易有道开源Confucius4-TTS，3 秒音频即可克隆音色23

网易有道近日发布“子曰4.0”TTS语音合成引擎Confucius4-TTS，并已将该模型全量开源。

据官方介绍，这是业内首个支持14种语言跨语种无口音、且无需参考文本即可完成语音克隆的开源模型。

用户仅需提供3秒音频素材，无需参考文本与前期训练，模型即可完成音色克隆，官方称克隆音色与原声相似度超过85%，克隆任务准确度达97%。

输入中文音频后，模型能够以原声音色输出其他13种目标语言的语音，全程保持音色一致。模型还可自动提取参考音频中的情感特征，实现语调、韵律与情绪的跨语种迁移。

在底层架构上，Confucius4-TTS采用1.3B参数规模，引入GPT式语义大模型作为主干，搭配基于SSL预训练特征和ECAPA-TDNN的可学习说话人编码器，并采用Flow Matching流匹配生成框架，不再沿用传统的声码器方案。

相较于网易有道此前的EmotiVoice仅支持训练集内音色且无法克隆，Confucius4-TTS实现了零样本语音克隆的跨越。

模型采用Apache 2.0开源协议，商用无限制，开发者可下载54GB完整资源包进行本地离线部署。GitHub仓库已面向全球开发者开放。

目前开源语音克隆赛道已有多款成熟方案。Fish-Speech训练数据超过1000万小时，支持约50种语言，采用双自回归架构；GPT-SoVITS在GitHub拥有超过4.5万星标，支持5秒零样本克隆。

Chatterbox支持23种语言，需要5到10秒参考音频；阿里的CosyVoice则需要10到20秒音频样本；Zyphra的ZONOS2为8B参数的MoE架构模型。

Confucius4-TTS在克隆速度（3秒）和免参考文本两个维度上具备差异化优势。

不过该模型也存在一些待验证之处，54GB的完整资源包对本地部署的硬件门槛要求较高，普通开发者可能难以直接运行。官方公布的85%相似度和97%准确度均为自测数据，缺乏第三方独立评测验证。

有技术博主实测后表示，虽整体听感自然流畅，但无法100%复刻细微音色。此外，模型仅支持14种语言，在语种覆盖上不及Fish-Speech的50种和Chatterbox的23种。

从行业趋势来看，2026年开源语音克隆模型正朝着更大参数规模、更低克隆门槛和更强多语言能力演进。

Confucius4-TTS的发布为开发者提供了新的选择，但其实际表现和社区生态的建设仍需时间检验。

［本文作者i黑马，i黑马原创。如需转载请联系微信公众号（ID:iheima）授权，未经授权，转载必究。］