月之暗面的下一代大模型Kimi K3计划在今年第三季度正式发布。
根据已经披露的信息,这款模型的参数量将达到2.5万亿,比目前K2系列翻了一倍还多,上下文长度标准也将提升至1M左右,内部测试数据远远超过这个数值。
横向对比一下,不久前发布的DeepSeek V4 Pro版本参数量约1.6万亿,百度文心5.0是2.4万亿。
K3的2.5万亿意味着它将成为国产大模型阵营中参数规模最高的产品之一,把此前行业普遍认为的2万亿短期天花板直接往上抬了一截。
参数规模当然不等于全部能力。大模型的评判维度很多,训练数据的质量、算力调度的效率、推理速度、上下文窗口的长度都会影响最终体验。
月之暗面这次也做了不少架构层面的调整。K3采用了MoE混合专家架构,每次推理只激活部分参数以平衡效率和性能,同时在预训练中确认集成了KDA关键依赖注意力技术路径。
这项实验性架构此前在基准分数、推理速度和经济性三项指标上都表现优于传统方案,但能否在2.5万亿的体量下真正跑通,还要看正式发布后的表现。
很多人会关心一个问题,参数量翻倍之后,普通用户能用上吗,用得上吗。高参数意味着更高的算力成本和运营支出,这也是为什么K3的内部测试上下文远超1M,但最终是否向用户开放还悬而未决。
目前行业内真正能做到普惠级超长上下文的还看DeepSeek V4,后者在算力优化上确实做到了极致。月之暗面能否在K3上找到同样的平衡点,直接关系到这款产品对普通用户的可用性。
商业层面上,月之暗面最近过得不算差也不算轻松。今年1月以来估值从43亿美元涨到180亿美元,翻了四倍,今年2月融资7亿美元,被同行智谱和MiniMax在港股上市后的高溢价推上去的。
2025年11月以来,海外API收入暴增四倍,付费用户月增长率超过170%。竞争同样激烈,字节豆包月活逼近3.5亿,千问一季度月活环比翻了近10倍至1.66亿,DeepSeek的用户端数据近期有所回落。
大模型赛道早已过了单点技术优势可以吃几年的阶段,谁能把技术优势和商业场景真正衔接上,谁才站得稳。
2.5万亿参数,放在一年前是整个行业难以想象的数字,但技术指标的意义终究要落在可用性和性价比上。参数翻倍的K3到底能给用户带来什么实质性的体验提升,等到第三季度正式发布才能知道答案。



