5月20日,阿里云在峰会上正式发布Qwen3.7-Max,定位为面向智能体时代的新一代旗舰模型,即将通过阿里云百炼API对外提供服务。该模型是阿里千问迄今最全面、最强大的智能体模型。
Qwen3.7-Max的核心优势集中在智能体能力的广度与深度上。在编程领域,模型能够处理从前端原型开发到复杂多文件软件工程的各类任务;在办公与生产力场景中,通过MCP集成和多智能体协作可实现工作流自动化。
更受关注的是其长周期自主执行能力,官方披露的一项实验显示,模型在没有芯片架构文档与性能分析数据的情况下,经过35小时、1158次工具调用的全自主内核优化,将国产平头哥真武M890处理器的Triton算子性能提升了10倍,超越了GLM 5.1的7.3倍和Kimi K2.6的5.0倍,而同期DeepSeek V4 Pro仅为3.3倍并在后续自动中断。
从基准测试来看,Qwen3.7-Max的表现紧追头部模型。在编程智能体方面,SWE-Pro得分为60.6,Terminal Bench 2.0-Terminus得分69.7,超越DS-V4-Pro Max的67.9;SWE-Verified得分为80.4,与Opus-4.6 Max的80.8和DS-V4-Pro Max的80.6相当。
在通用智能体方面,MCP-Mark得分为60.8,高于GLM-5.1的57.5;MCP-Atlas得分为76.4,略高于Opus-4.6的75.8。
推理能力上,GPQA Diamond得分为92.4,HLE为41.4,均优于Opus-4.6的91.3和40.0。在指令遵循方面,IFBench得分79.1,超过DS-V4-Pro的77.0。
智能体正在成为大模型行业的核心方向,中国信通院2025人工智能十大关键词中将“自主性更强的智能体”列为重要趋势,智能体产品通过融合基座模型、MCP服务等进一步释放应用潜能。
Gartner报告也指出,生成式AI和代理型AI共同塑造了中国AI发展的主要趋势,大模型应用正加速从“能思考”向“能实干”转变。行业数据显示,截至2025年底,我国大模型公有云Token调用量约2000万亿,人工智能正加速为千行百业拓展新空间。
综合来看,Qwen3.7-Max的发布反映了中国大模型企业从追求参数规模转向强化模型实际执行能力的技术路线。能否通过API持续吸引开发者、形成稳定的应用生态,将决定这款模型在未来智能体市场中的实际竞争力。



