蚂蚁百灵发布新模型Ling-2.6-flash,推理成本仅为同类十分之一
2026-04-22 15:43 蚂蚁百灵

蚂蚁百灵发布新模型Ling-2.6-flash,推理成本仅为同类十分之一23

4月22日,蚂蚁集团百灵大模型团队推出新款Instruct模型Ling-2.6-flash。该模型总参数量1040亿,激活参数量74亿,采用混合线性架构,是一种高度稀疏化的MoE设计。模型已通过API开放,输入每百万tokens定价0.1美元,输出0.3美元,首周提供免费试用。

此前一周,一个名为Elephant Alpha的匿名模型在OpenRouter平台上线,调用量迅速攀升,连续多日位列Trending榜首,日均tokens调用量达100亿级别,周增长超过5000%。百灵今日确认,Elephant Alpha正是Ling-2.6-flash的匿名测试版本。

在性能方面,Ling-2.6-flash在4卡H20环境下推理速度最快可达每秒340个tokens,稳定输出为每秒215个tokens。其Prefill吞吐量达到Nemotron-3-Super的2.2倍。

在Artificial Analysis的完整评测中,该模型仅消耗1500万tokens完成全部评测任务,而Nemotron-3-Super等同类模型需要1.1亿tokens以上,消耗约为后者的十分之一。

此外,模型针对Agent场景做了定向增强,在BFCL-V4、TAU2-bench、SWE-bench Verified等多项基准测试中达到同尺寸模型的最佳水平。

从行业对比来看,MoE架构已成为大模型的主流技术路线。DeepSeek-V3总参数6710亿,激活参数370亿;阿里通义千问Qwen3.5-35B-A3B总参数350亿,激活参数30亿;字节跳动豆包2.0 Pro总参数7440亿,激活参数约40至44亿。

各家都在围绕激活参数这一指标进行优化,试图在模型能力与推理成本之间寻找更优的平衡点。

一个值得关注的现实是,当模型厂商纷纷将激活参数和成本效率作为核心卖点时,用户在实际业务场景中究竟更看重单位token的成本,还是模型解决复杂任务的鲁棒性?这个问题的答案,可能比任何技术参数都更能决定下一代大模型的市场走向。

88.jpg