4月16日,阶跃星辰发布新一代语音生成模型StepAudio 2.5 TTS,并已全量上线其开放平台。
同样在4月16日,谷歌发布了Gemini 3.1 Flash TTS,两者都选择了自然语言作为控制入口,指向同一个信号,TTS的控制范式正在从“选标签”转向“说需求”。
StepAudio 2.5 TTS的核心升级集中在三点。全局语境控制允许用户用自然语言定义整段语音的情绪基调、角色状态和场景氛围;文中语境控制能在句子层面调节语气、节奏、停顿和呼吸感;零样本复刻则让用户无需重新训练即可保留目标音色特征,并灵活调整情感与风格。
一个典型场景是用自然语言描述“克制的悲伤、没有哭腔、轻轻发颤”,模型据此合成对应音色,而传统TTS只能从预设的“悲伤”标签中做选择。
此外,该模型采用自研流式架构,响应延迟控制在200毫秒以内,音色库覆盖300余种预设类型,并开放用户自定义音色上传。
TTS赛道近年来竞争激烈,格局变化频繁。ElevenLabs凭借强大的音色复刻能力长期占据创作者市场头部位置;Inworld TTS 1.5 Max在2026年3月以1236的ELO评分领跑第三方盲测榜单;Smallest.ai的Lightning V3在语调与韵律等关键指标上超越了OpenAI和ElevenLabs。
阶跃此次的更新路径,与行业主流方向高度一致,更细腻的情感控制、更低的使用门槛、更自然的语音表现。但真正的变量可能不是技术参数,而是产品定位。
当ElevenLabs深耕创作者生态、Inworld聚焦实时对话代理时,阶跃将场景锚定在角色配音、有声内容创作和智能语音交互,走了一条更偏向内容生产的路线。
但市场最终会奖励更擅长工具集成的一方,还是更擅长情感细腻度的一方,答案并不清晰。
TTS控制从标签到自然语言的转变,本质上是在降低专业门槛。以前调情绪要靠反复录制,现在用一句话描述就能定义音色的细腻层次。这对专业创作者和普通用户都是正向变化。
但问题在于,自然语言控制虽然灵活,却不一定比标签更高效。对需要快速复现标准语气的场景来说,选择预设标签可能仍然是最直接的方式。自然语言会不会反而增加操作负担,还有待验证。
StepAudio 2.5 TTS的技术方向没有错,但在一个已经被多家头部公司定义好规则的市场里,单纯的追赶很难创造新的价值。
真正的问题或许是,当所有TTS模型都在追求更高的表现力,用户最终需要的是更强大的工具,还是更简单的工具?



