阿里千问的全模态模型来了，价格不到Gemini的十分之一_科技

阿里千问的全模态模型来了，价格不到Gemini的十分之一

2026-03-31 11:39 阿里千问

阿里千问的全模态模型来了，价格不到Gemini的十分之一23

3月30日，阿里千问上线了全模态大模型Qwen3.5-Omni。这是一个能同时处理文本、图像、音频和视频输入的模型系列，包含Plus、Flash、Light三种尺寸，均采用原生多模态架构进行预训练。

在215项涉及音视频理解、推理、对话和翻译的第三方测试中，Qwen3.5-Omni取得了SOTA成绩。

其中通用音频理解、识别、翻译和对话等指标超过了谷歌Gemini-3.1 Pro，音视频理解能力与Gemini-3.1 Pro相当。

在DailyOmni、QualcommInteractive等聚焦视听交互的测试中，Qwen3.5-Omni得分领先Gemini-3.1 Pro；在嘈杂环境下的WenetSpeech测试中，其错误率也远低于Gemini。同时，视觉和文本能力与同尺寸的Qwen3.5单模态模型持平。

作为对比，OpenAI的GPT-4o也主打多模态交互，以速度和成本效益为特点，响应音频输入的平均时间为320毫秒；谷歌的Gemini系列同样强调原生多模态能力，能同时分析文本、图像、视频和音频；Qwen3.5-Omni的发布意味着全模态赛道又多了一个选择。

Qwen3.5-Omni采用了Thinker-Talker分工架构。Thinker负责理解，升级为Hybrid-Attention MoE；Talker负责表达，引入ARIA技术来处理语音输出。模型支持256k长上下文，可处理超过10小时的音频输入或超过400秒的720P视频。

相比上一代，多语言能力大大增强，支持113种语种和方言的语音识别，36种语种和方言的语音生成。在实时交互方面，Qwen3.5-Omni新增了语义打断、音色克隆和语音控制功能，能够分辨咳嗽等杂音与真正插话的区别。

一个值得关注的现象是，模型还自然涌现出了音视频Vibe Coding能力，用户对着摄像头口述需求即可生成可运行的代码。

价格方面，Qwen3.5-Omni的API调用定价为每百万Tokens输入不足0.8元，不到Gemini-3.1 Pro价格的十分之一。

目前，用户可通过Qwen Chat免费体验，开发者和企业可通过阿里云百炼平台调用。

当技术指标和价格差异逐渐缩小，用户最终会选择哪个模型，是看性能榜单，还是看谁真正解决了具体场景里的痛点。这个问题的答案，或许比SOTA数量更有分量。

［本文作者i黑马，i黑马原创。如需转载请联系微信公众号（ID:iheima）授权，未经授权，转载必究。］