5月28日,全球AI评测平台Artificial Analysis发布最新一期语音排行榜Speech Arena。阿里巴巴语音大模型Fun-Realtime-TTS-Preview以1190分的Elo评分位列全球第五、国产第一,在ASR、TTS和端到端语音对话Chat三个赛道均拿下国内榜首。
Artificial Analysis采用盲测Elo评分机制,用户在不知道模型身份的情况下对多段语音进行听感判断,覆盖客服、知识分享、数字助手等真实场景。
目前在榜单上排在前面的模型包括Inworld的Realtime TTS 15 Max、Google的Gemini 31 Flash TTS等。
紧随阿里之后的是阶跃星辰的StepAudio 2.5 TTS,以1187分位列全球第六。整体来看,国产语音模型已占据榜单前列多个席位,竞争激烈程度持续攀升。
技术层面,阿里这款模型采用新型流式生成架构,在保持128ms超低延迟的同时,通过动态注意力机制控制声调韵律,语音合成速度较传统方案提升约5倍。作为“Preview”版本,其产品化程度和稳定性仍需在实际部署中进一步验证。
此前阿里语音家族另一成员Fun-Realtime-ASR的词错误率低至1.8%,支持30多种语言和7种中文方言,但这些特性尚未全部复用到Fun-Realtime-TTS-Preview上。
从行业格局看,AliExpress已集成该模型提供多语言实时翻译功能,钉钉和高德地图也在日常场景中使用其语音技术。
与此同时,阶跃星辰刚发布的StepAudio 2.5系列覆盖TTS、ASR和Realtime全链路,意欲在语音交互市场追赶阿里;国际厂商ElevenLabs和Cartesia则在语音克隆、情感表达等垂直能力上更具优势。云端接口的稳定性和企业定制成本,仍是各厂商需要持续优化的环节。
语音技术正在从实验室实验走向真实场景压力测试。大模型架构开始取代传统统计方法,将语音识别、语义理解、语音生成统一在Transformer架构下,形成从感知到认知的技术闭环。
但自然度97%和真人语调仍有感知差距,嘈杂环境下的识别准确率和系统延迟等方面同样存在改善空间。能否在保持高分的同时,将成本压缩到可大规模商用的水平,才是各厂商下一阶段的关键课题。



