4月9日,字节跳动宣布推出原生全双工语音大模型Seeduplex,并已在豆包App全量上线。
该模型采用“边听边说”的框架设计,与上一代半双工豆包端到端语音模型相比,交互的自然感和顺畅度有了明显提升。
全双工技术的核心在于让模型同时具备听和说的能力,不再采用传统的“你一句我一句”回合制模式。
Seeduplex重点在两个方面做了突破,一是精准抗干扰,模型持续倾听用户的声学环境,能够忽略背景噪音和无关对话,在复杂场景下误回复率和误打断率比半双工模型减少了一半。
二是动态判停,模型结合语音和语义特征来判断用户意图,用户说话时有思考停顿,模型会耐心等待;用户说完,模型则快速响应,抢话比例下降了40%。
评测数据也支撑了这两项突破的效果。多维度评测显示,Seeduplex在对话流畅度和节奏感上均优于传统的半双工方案以及行业主流语音通话功能,判停表现提升了8%。
大规模A/B实验数据显示,相比此前豆包使用的半双工模型,Seeduplex上线后用户通话时长、留存等核心指标均有正向提升,通话满意度绝对值提升了8.34%,用户反馈中“抢话”“响应慢”“误打断”等问题的提及比例明显下降。
目前用户只需将豆包App更新至最新版本,在对话框选择“打电话”,即可进入语音通话界面体验,需选择桃子音色。
全双工语音交互并非字节独家布局。2026年以来,腾讯开源了70亿参数的端到端语音大模型Covo-Audio,采用分层三模态架构,支持全双工实时对话,并强调作为GPT-4o语音能力的开源替代方案。
阿里云则发布了Qwen3-Omni全模态大模型,原生支持文本、图像、音视频输入与实时语音输出,语音交互延迟低至211ms,直接对标Gemini 2.5 Pro。
面壁智能也在近期发布了行业首个全双工全模态大模型MiniCPM-o 4.5,以9B精简体量实现语音、视频、文本的全模态同步交互。
当头部厂商纷纷将全双工语音能力推向规模化落地,一个值得思考的问题是,这类技术最终会走向怎样的交互形态。
从目前的进展来看,Seeduplex率先实现了面向大众用户的规模化部署,而Covo-Audio则选择了完全开源的路径,阿里和面壁的方案更强调全模态融合。
各家路径不同,但终点似乎是一致的,即让人机对话无限逼近人与人之间的自然交流。这场竞争才刚刚开始,最终决定胜负的,可能不只是技术参数,而是谁更懂用户想要怎样的对话节奏。



