蚂蚁百灵发布新模型Ling-2.6-flash，推理成本仅为同类十分之一_科技

蚂蚁百灵发布新模型Ling-2.6-flash，推理成本仅为同类十分之一

2026-04-22 15:43 蚂蚁百灵

蚂蚁百灵发布新模型Ling-2.6-flash，推理成本仅为同类十分之一23

4月22日，蚂蚁集团百灵大模型团队推出新款Instruct模型Ling-2.6-flash。该模型总参数量1040亿，激活参数量74亿，采用混合线性架构，是一种高度稀疏化的MoE设计。模型已通过API开放，输入每百万tokens定价0.1美元，输出0.3美元，首周提供免费试用。

此前一周，一个名为Elephant Alpha的匿名模型在OpenRouter平台上线，调用量迅速攀升，连续多日位列Trending榜首，日均tokens调用量达100亿级别，周增长超过5000%。百灵今日确认，Elephant Alpha正是Ling-2.6-flash的匿名测试版本。

在性能方面，Ling-2.6-flash在4卡H20环境下推理速度最快可达每秒340个tokens，稳定输出为每秒215个tokens。其Prefill吞吐量达到Nemotron-3-Super的2.2倍。

在Artificial Analysis的完整评测中，该模型仅消耗1500万tokens完成全部评测任务，而Nemotron-3-Super等同类模型需要1.1亿tokens以上，消耗约为后者的十分之一。

此外，模型针对Agent场景做了定向增强，在BFCL-V4、TAU2-bench、SWE-bench Verified等多项基准测试中达到同尺寸模型的最佳水平。

从行业对比来看，MoE架构已成为大模型的主流技术路线。DeepSeek-V3总参数6710亿，激活参数370亿；阿里通义千问Qwen3.5-35B-A3B总参数350亿，激活参数30亿；字节跳动豆包2.0 Pro总参数7440亿，激活参数约40至44亿。

各家都在围绕激活参数这一指标进行优化，试图在模型能力与推理成本之间寻找更优的平衡点。

一个值得关注的现实是，当模型厂商纷纷将激活参数和成本效率作为核心卖点时，用户在实际业务场景中究竟更看重单位token的成本，还是模型解决复杂任务的鲁棒性？这个问题的答案，可能比任何技术参数都更能决定下一代大模型的市场走向。

［本文作者i黑马，i黑马原创。如需转载请联系微信公众号（ID:iheima）授权，未经授权，转载必究。］