阿里千问的全模态模型来了,价格不到Gemini的十分之一
2026-03-31 11:39 阿里千问

阿里千问的全模态模型来了,价格不到Gemini的十分之一23

3月30日,阿里千问上线了全模态大模型Qwen3.5-Omni。这是一个能同时处理文本、图像、音频和视频输入的模型系列,包含Plus、Flash、Light三种尺寸,均采用原生多模态架构进行预训练。

在215项涉及音视频理解、推理、对话和翻译的第三方测试中,Qwen3.5-Omni取得了SOTA成绩。

其中通用音频理解、识别、翻译和对话等指标超过了谷歌Gemini-3.1 Pro,音视频理解能力与Gemini-3.1 Pro相当。

在DailyOmni、QualcommInteractive等聚焦视听交互的测试中,Qwen3.5-Omni得分领先Gemini-3.1 Pro;在嘈杂环境下的WenetSpeech测试中,其错误率也远低于Gemini。同时,视觉和文本能力与同尺寸的Qwen3.5单模态模型持平。 

作为对比,OpenAI的GPT-4o也主打多模态交互,以速度和成本效益为特点,响应音频输入的平均时间为320毫秒;谷歌的Gemini系列同样强调原生多模态能力,能同时分析文本、图像、视频和音频;Qwen3.5-Omni的发布意味着全模态赛道又多了一个选择。

Qwen3.5-Omni采用了Thinker-Talker分工架构。Thinker负责理解,升级为Hybrid-Attention MoE;Talker负责表达,引入ARIA技术来处理语音输出。模型支持256k长上下文,可处理超过10小时的音频输入或超过400秒的720P视频。

相比上一代,多语言能力大大增强,支持113种语种和方言的语音识别,36种语种和方言的语音生成。在实时交互方面,Qwen3.5-Omni新增了语义打断、音色克隆和语音控制功能,能够分辨咳嗽等杂音与真正插话的区别。

一个值得关注的现象是,模型还自然涌现出了音视频Vibe Coding能力,用户对着摄像头口述需求即可生成可运行的代码。

价格方面,Qwen3.5-Omni的API调用定价为每百万Tokens输入不足0.8元,不到Gemini-3.1 Pro价格的十分之一。

目前,用户可通过Qwen Chat免费体验,开发者和企业可通过阿里云百炼平台调用。

当技术指标和价格差异逐渐缩小,用户最终会选择哪个模型,是看性能榜单,还是看谁真正解决了具体场景里的痛点。这个问题的答案,或许比SOTA数量更有分量。

88.jpg