阿里巴巴实时语音大模型，位列语音榜全球第五、国产第一_科技

阿里巴巴实时语音大模型，位列语音榜全球第五、国产第一

2026-05-28 19:01 阿里巴巴

阿里巴巴实时语音大模型，位列语音榜全球第五、国产第一23

5月28日，全球AI评测平台Artificial Analysis发布最新一期语音排行榜Speech Arena。阿里巴巴语音大模型Fun-Realtime-TTS-Preview以1190分的Elo评分位列全球第五、国产第一，在ASR、TTS和端到端语音对话Chat三个赛道均拿下国内榜首。

Artificial Analysis采用盲测Elo评分机制，用户在不知道模型身份的情况下对多段语音进行听感判断，覆盖客服、知识分享、数字助手等真实场景。

目前在榜单上排在前面的模型包括Inworld的Realtime TTS 15 Max、Google的Gemini 31 Flash TTS等。

紧随阿里之后的是阶跃星辰的StepAudio 2.5 TTS，以1187分位列全球第六。整体来看，国产语音模型已占据榜单前列多个席位，竞争激烈程度持续攀升。

技术层面，阿里这款模型采用新型流式生成架构，在保持128ms超低延迟的同时，通过动态注意力机制控制声调韵律，语音合成速度较传统方案提升约5倍。作为“Preview”版本，其产品化程度和稳定性仍需在实际部署中进一步验证。

此前阿里语音家族另一成员Fun-Realtime-ASR的词错误率低至1.8%，支持30多种语言和7种中文方言，但这些特性尚未全部复用到Fun-Realtime-TTS-Preview上。

从行业格局看，AliExpress已集成该模型提供多语言实时翻译功能，钉钉和高德地图也在日常场景中使用其语音技术。

与此同时，阶跃星辰刚发布的StepAudio 2.5系列覆盖TTS、ASR和Realtime全链路，意欲在语音交互市场追赶阿里；国际厂商ElevenLabs和Cartesia则在语音克隆、情感表达等垂直能力上更具优势。云端接口的稳定性和企业定制成本，仍是各厂商需要持续优化的环节。

语音技术正在从实验室实验走向真实场景压力测试。大模型架构开始取代传统统计方法，将语音识别、语义理解、语音生成统一在Transformer架构下，形成从感知到认知的技术闭环。

但自然度97%和真人语调仍有感知差距，嘈杂环境下的识别准确率和系统延迟等方面同样存在改善空间。能否在保持高分的同时，将成本压缩到可大规模商用的水平，才是各厂商下一阶段的关键课题。

［本文作者i黑马，i黑马原创。如需转载请联系微信公众号（ID:iheima）授权，未经授权，转载必究。］