5月7日,阿里千问在PC端正式上线AI语音输入功能。用户通过快捷键就可以在微博、QQ邮箱、PS、谷歌浏览器等各类桌面应用中直接调用这一输入能力。
Windows端按下右Alt键,Mac端按下右Command键即可激活,不需要手动复制粘贴或切换应用界面。
千问语音输入的功能逻辑并非简单的语音转文字,它能对口语内容做去语气词、纠错、格式化整理处理,还支持基于上下文的智能回复。
用户也可以直接下达创作、问答、翻译等指令,比如口述“帮我做一份第一季度销售数据的PPT”,千问会直接调用相关能力生成文件。目前该功能已经全面开放,所有用户可以通过千问PC端免费使用。
这个功能上线的时间点值得注意,就在几周前,微软发布了自研语音识别模型MAI-Transcribe-1,支持25种语言,企业级转录起步价每小时0.36美元,部分性能指标超过了OpenAI的Whisper-large-v3。
Cohere在三月底也开源了20亿参数的语音识别模型Cohere Transcribe,采用Apache 2.0协议,可以直接部署在终端设备上,无需频繁调用云端算力。全球头部AI公司几乎在同一时间加大了对语音识别和交互的投入。
在这些进展中,千问的一个明显差异是免费的PC端应用场景。微软的主要发力点在企业服务和开发者工具,Cohere聚焦于企业级语音识别的开源部署。千问的语音输入没有向用户收费,也不仅限于特定办公软件,而是在全桌面环境内通用。
一个不能回避的问题是,语音输入在大模型应用中到底是一个基础能力还是核心入口。有分析预测2026年下半年,语音输入加AI改写会成为主流AI产品的标配功能。
从这一逻辑看,千问在PC端上线语音输入更像是构建完整产品体系的必要步骤,而不是一次产品层面的重大突破,但免费策略确实降低了体验门槛。
此前有观点认为市场缺乏既免费、又具备AI结构化改写能力、同时对中文友好的语音输入工具。千问填补了这个空档。
与此同时,微软、谷歌、OpenAI等公司对语音交互的投入远不止输入法层面。OpenAI计划在2026年发布新一代音频语言模型,并以此为基础推进语音驱动的硬件设备。
开源方案如Cohere Transcribe也在挑战传统语音识别市场格局,整个产业在语音技术上的竞争已经进入了从模型性能到应用落地的全面比拼。
语音交互的便利性毋庸置疑,但千问上线这个功能后更大的看点在于它在PC端能走多远。
大模型应用正在从单纯的对话工具向实际解决任务的智能体演进,语音输入降低了用户调用AI能力的门槛,但真正决定价值的仍然是模型执行任务的准确性和可靠性。
千问选择在PC端优先落地语音输入,可能不仅仅是为了做一个方便的输入工具,而是为更大范围的智能体操作铺路。
目前千问语音输入已经可以完成制作PPT、整理表格、输出Word文档等跨应用任务。这类操作在PC端比移动端更顺畅,因为PC操作系统本身提供了更高的权限和更开放的API调用空间。
这也是为什么大部分能够真正自主执行任务的AI智能体都优先选择PC端部署,千问的这一步,看似是输入方式的更新,但真正指向的是AI在PC端的深度嵌入。



