全球互联网基础设施巨头Cloudflare近期做了一个在业内看来并不算意外的决定,将月之暗面开源的Kimi K2.5模型引入核心生产业务,替代此前使用的中等价位的闭源模型。
这不是一次简单的模型切换,根据Cloudflare官方披露的数据,其内部一个负责扫描代码库安全缺陷的AI智能体,每天要处理超过70亿个Token。
如果继续使用原有的闭源模型方案,仅这一项的年成本约为240万美元。切换到Kimi K2.5后,推理成本直接降低了77%。这个数字被Cloudflare工程师写进了官方博客,不是概念演示,而是真实的生产账单。
值得注意的不仅是成本数字本身。在Cloudflare的测试中,Kimi K2.5曾在一个代码库中一次性精准识别出15个已确认的安全漏洞。这意味着降成本并非以牺牲性能为代价,而是基于模型本身在编程和Agent任务中的实际表现。
Cloudflare为这次切换做足了技术铺垫。他们没有使用现成的推理框架,而是用自己的Inf推理引擎做了定制化内核,采用数据并行、张量并行与专家并行化架构。
同时,平台层推出了三项针对性改进:前缀缓存折扣让多轮对话中已处理的输入Token不再重复计费,会话亲和性标头将同一会话路由到同一模型实例以提高缓存命中率,异步批量推理API则适合代码扫描等不需要实时响应的任务。
Kimi K2.5本身的技术指标支撑了这种规模化部署。256K的超大上下文窗口、多轮工具调用能力、视觉输入支持,加上MoE架构下总参数1万亿但每次推理只激活320亿参数的设计,让它在性能与成本之间找到了一个平衡点。
将目光拉回行业层面,Cloudflare的选择指向了一个更根本的问题,当AI推理需求呈指数级增长时,科技公司是否还需要为闭源模型的溢价持续买单?
答案正在被多个信号验证。就在Cloudflare接入Kimi K2.5的同一周,估值500亿美元的AI编程工具Cursor被开发者发现其自研模型Composer 2的底层基于Kimi K2.5微调。
硅谷顶级投资人Chamath Palihapitiya在All-In播客中公开表示取消了所有OpenAI账户,称K2.5可能让AI成本砍掉90%。NVIDIA在CES和GTC两场年度大会上连续用Kimi模型做芯片性能验证和推理能力展示。
回到Cloudflare本身,这家服务全球1/5网站的公司,正在有意识地摆脱对闭源模型的依赖。
CEO Matthew Prince在SXSW2026大会上曾预言,未来互联网流量将由数以亿计的AI智能体驱动,推理需求将呈指数级增长。从这个角度看,选择Kimi K2.5不只是成本优化,更像是一次面向未来算力结构的技术卡位。
240万美元的年成本缩减到一个零头,对于一个上市公司而言是实打实的利润空间。但更具想象空间的问题或许是,当边缘计算巨头和估值500亿美元的硅谷明星产品都在用同一款中国开源模型做底层支撑,闭源模型的溢价逻辑还能撑多久?



