Cloudflare用上Kimi K2.5，每年省下77%推理成本_科技

Cloudflare用上Kimi K2.5，每年省下77%推理成本

2026-04-01 11:28 Cloudflare

Cloudflare用上Kimi K2.5，每年省下77%推理成本23

全球互联网基础设施巨头Cloudflare近期做了一个在业内看来并不算意外的决定，将月之暗面开源的Kimi K2.5模型引入核心生产业务，替代此前使用的中等价位的闭源模型。

这不是一次简单的模型切换，根据Cloudflare官方披露的数据，其内部一个负责扫描代码库安全缺陷的AI智能体，每天要处理超过70亿个Token。

如果继续使用原有的闭源模型方案，仅这一项的年成本约为240万美元。切换到Kimi K2.5后，推理成本直接降低了77%。这个数字被Cloudflare工程师写进了官方博客，不是概念演示，而是真实的生产账单。

值得注意的不仅是成本数字本身。在Cloudflare的测试中，Kimi K2.5曾在一个代码库中一次性精准识别出15个已确认的安全漏洞。这意味着降成本并非以牺牲性能为代价，而是基于模型本身在编程和Agent任务中的实际表现。

Cloudflare为这次切换做足了技术铺垫。他们没有使用现成的推理框架，而是用自己的Inf推理引擎做了定制化内核，采用数据并行、张量并行与专家并行化架构。

同时，平台层推出了三项针对性改进：前缀缓存折扣让多轮对话中已处理的输入Token不再重复计费，会话亲和性标头将同一会话路由到同一模型实例以提高缓存命中率，异步批量推理API则适合代码扫描等不需要实时响应的任务。

Kimi K2.5本身的技术指标支撑了这种规模化部署。256K的超大上下文窗口、多轮工具调用能力、视觉输入支持，加上MoE架构下总参数1万亿但每次推理只激活320亿参数的设计，让它在性能与成本之间找到了一个平衡点。

将目光拉回行业层面，Cloudflare的选择指向了一个更根本的问题，当AI推理需求呈指数级增长时，科技公司是否还需要为闭源模型的溢价持续买单？

答案正在被多个信号验证。就在Cloudflare接入Kimi K2.5的同一周，估值500亿美元的AI编程工具Cursor被开发者发现其自研模型Composer 2的底层基于Kimi K2.5微调。

硅谷顶级投资人Chamath Palihapitiya在All-In播客中公开表示取消了所有OpenAI账户，称K2.5可能让AI成本砍掉90%。NVIDIA在CES和GTC两场年度大会上连续用Kimi模型做芯片性能验证和推理能力展示。

回到Cloudflare本身，这家服务全球1/5网站的公司，正在有意识地摆脱对闭源模型的依赖。

CEO Matthew Prince在SXSW2026大会上曾预言，未来互联网流量将由数以亿计的AI智能体驱动，推理需求将呈指数级增长。从这个角度看，选择Kimi K2.5不只是成本优化，更像是一次面向未来算力结构的技术卡位。

240万美元的年成本缩减到一个零头，对于一个上市公司而言是实打实的利润空间。但更具想象空间的问题或许是，当边缘计算巨头和估值500亿美元的硅谷明星产品都在用同一款中国开源模型做底层支撑，闭源模型的溢价逻辑还能撑多久？

［本文作者i黑马，i黑马原创。如需转载请联系微信公众号（ID:iheima）授权，未经授权，转载必究。］