标贝科技多语种合成数据库 助力AI企业扬帆出海
2022-09-15 17:53 标贝科技

随着人工智能、云计算、5G等新技术的成熟应用,推动了全球智能语音产业进一步升级。而多语种语言互通、复杂场景交互的实现,也给智能语音市场发展注入新动能。据中国语音产业联盟《2020-2021中国智能语音产业发展白皮书》数据显示,2020年全球智能语音产业规模约为203亿美元,预计2021年产业规模将超过250亿美元。

其中,欧美等成熟的海外市场具有优质的消费群体和良好的用户认知,印度、东南亚等新兴市场则存在蓬勃的市场潜力。处在这样的经济大环境和市场整体趋势下,越来越多的国内企业瞄准海外市场,开始“走出去”战略。

多语种数据稀缺 语音合成难度大

对于主打AI语音产品的企业来说,在竞争激烈的出海赛道中,不仅要面对不同的市场环境、人文特征、技术安全等一系列挑战,更需要克服错综复杂的语言问题,实现与当地用户“无障碍沟通”。因此,解决智能语音产品的“说话”问题,是快速实现本地适配,打开海外市场的首要条件。

从技术层面来看,多语种语音合成的实现,需要根据语言积累构建语种系统。而不同语言之间差异很大,所以需要根据不同的语言特性单独建模。这就需要大量不同语种的数据做训练支撑。

据了解,目前世界上共有7000多种语言,其中使用人数超过5000万的语言仅有10余种。众多语言中,使用人数少的小语种采集更加困难。本地口音,小语种训练数据匮乏,高昂的制作成本,给语种系统的构建带来不小的困难。

高质量多语种数据集 助力企业出海

标贝科技深耕AI数据服务领域多年,拥有专业的数据处理团队和强大的数据采集、处理能力,在数据采集和标注方面具备丰富的实践经验。

面对多语种训练语料稀缺的难题,标贝科技基于自有高规格录音棚、全球优质声优资源,推出系列多语种合成语音数据库,覆盖美语、英语、葡语、印尼语、巴葡语、西语、法语、德语、俄语、意大利语、西班牙语、韩语、日语等多语种语言,并完成对数据库的音标、重音标注、韵律标注,供算法优化直接使用,助力国内智能语音产品化解语言挑战,顺利出海。

部分数据库展示如下:

1、美语女声合成库

语种:美式英语

采集环境:专业录音棚,信噪比不低于35dB

数据时长:10.27小时

录音语料:日常朗读

采样格式:无压缩PCM WAV格式,采样率为48KHz 16bit

标注内容:音字标注、韵律标注

适用领域:智能客服、新闻播报、语音导航等领域

2、英语男声合成库

语种:英式英语

采集环境:专业录音棚,信噪比不低于35dB

数据时长:30小时

录音语料:英文小说

采样格式:无压缩PCM WAV格式,采样率为48KHz 16bit

标注内容:音字标注、韵律标注

适用领域:有声阅读、智能客服、产品解说等领域

3、德语男声合成库

语种:德语

采集环境:专业录音棚,信噪比不低于35dB

数据时长:10小时

录音语料:日常朗读

采样格式:无压缩PCM WAV格式,采样率为48KHz 16bit

标注内容:音字标注、韵律标注

适用领域:智能客服、新闻播报、语音助手等领域

4、巴葡青年男声多风格合成库

语种:巴西葡萄牙语

采集环境:专业录音棚,信噪比不低于35dB

数据时长:9.06小时

录音语料:日常朗读、情感演绎

采样格式:无压缩PCM WAV格式,采样率为48KHz 16bit

标注内容:音字标注、韵律标注

适用领域:有声阅读、影视配音等领域

5、巴葡女声合成库

语种:巴西葡萄牙语

采集环境:专业录音棚,信噪比不低于35dB

数据时长:10小时

录音语料:日常朗读

采样格式:无压缩PCM WAV格式,采样率为48KHz 16bit

标注内容:音字标注、韵律标注

适用领域:科研、语音导航、影视配音等领域

欢迎对以上数据集感兴趣的行业伙伴联系我们~如果以上数据不能满足您当前的需求,标贝科技还可以针对特定人群、特定场景、特定语种提供相应的数据定制化服务,全力帮助企业客户得到满意的数据服务。