AI大模型周报:DeepSeek首轮估值破500亿美元创纪录,Kimi阶跃星辰密集融资,大模型估值进入500亿美元时代
2026-05-09 15:05 AI大模型

AI大模型周报:DeepSeek首轮估值破500亿美元创纪录,Kimi阶跃星辰密集融资,大模型估值进入500亿美元时代23

5月1日至5月9日,中国AI大模型行业迎来了资本层面的历史性转折。一周之内,DeepSeek、月之暗面、阶跃星辰三家公司密集传出融资消息,头部阵营的估值体系被彻底重塑。

DeepSeek首轮融资估值飙升至450至500亿美元,并传创始人梁文锋计划自掏200亿元参与认购;月之暗面Kimi完成约20亿美元融资,投后估值突破200亿美元;阶跃星辰将完成近25亿美元融资,携消费电子产业链资本阵营冲刺港股IPO。

行业从“技术路线之争”全面转向“资本实力与商业化能力的全面较量”。

1.DeepSeek首轮估值进击:500亿美元刷新国内纪录

DeepSeek首轮外部融资成为本周行业最受关注的事件。《华尔街日报》5月7日报道,DeepSeek正向政府支持的投资者筹集数十亿美元资金,部分潜在投资者在最新洽谈中对DeepSeek的估值约500亿美元,远高于此前100亿至300亿美元的估值区间,拥有约88亿美元资本的国家人工智能产业投资基金正就参与融资进行深入谈判。

多位知情人士5月9日向媒体透露,DeepSeek计划募资最高500亿元人民币,有望创下中国AI公司单轮融资的历史新高,腾讯拟出资60亿元参与本轮融资。

更引发市场关注的是创始人梁文锋的个人动作。据多位知情人士透露,梁文锋计划亲自掏出200亿元参与认购,占募资总额的40%左右。知情者表示这轮融资的核心目标是为全员期权做一个市场定价,梁文锋自掏腰包为这个价格托底。

此前梁文锋曾定下不接受外部融资、不稀释股权的铁律,底气来自幻方量化,仅在2025年一年,幻方量化在700亿元管理规模基础上实现了超过55%的收益。据行业测算,包括本轮注资在内,投后估值有望突破3500亿元即约515亿美元。

公开数据显示,过去一年DeepSeek至少有5名核心研发人员离职,如果内部期权有了清晰的市场定价,竞争对手很难再轻易挖角。

在商业化层面,DeepSeek计划在6月推出V4.1模型,将正式整合多模态能力和MCP支持,从“能聊天”升级到“能干活”,目前已开始主动向各行各业推广模型。数据层面,DeepSeek网页端4月访问量达4.86亿,在中国AI厂商中排名第一。

2.月之暗面:20亿美元融资落地,半年估值翻5倍

5月7日,华峰资本发布信息确认,月之暗面Kimi完成新一轮约20亿美元融资,投后估值突破200亿美元。本轮融资由美团龙珠领投,水木资本、中国移动、CPE源峰等参投,这也是国内大模型创业公司迄今金额最高的私募融资之一。

至此,月之暗面半年内累计融资超39亿美元,总融资额超376亿元人民币,成为国内大模型创业公司中累计融资最多的企业。对比2025年11月约43亿美元的估值,当前估值超过200亿美元,增长约4倍。

华峰资本透露,受益于模型能力迭代,月之暗面ARR(年度经常性收入)在4月已超2亿美元,付费订阅与API收入加速增长。

3.阶跃星辰25亿美元融资冲刺港股,消费电子产业链资本集中入场

5月8日,据消息人士透露,阶跃星辰将完成近25亿美元融资,公司已完成股份制改造,红筹架构拆除工作落地收尾,正全力冲刺港股IPO,剑指“国产大模型第三股”。

本轮融资的最大看点是投资方的构成,华勤技术、龙旗科技、豪威集团、中兴通讯等消费电子产业链核心企业集体出现在股东名单里,产业资本密集入局被市场解读为对阶跃星辰“AI+终端”战略的强力背书。

今年1月,旷视科技创始人印奇出任阶跃星辰董事长,进一步明确了公司战略方向,其Step系列多模态模型已与OPPO、荣耀、吉利等厂商达成合作,手机预装机量突破4200万台,日均服务近2000万人次。

至此,国产大模型上市梯队轮廓清晰,智谱市值约500亿美元,MiniMax约300亿美元,DeepSeek以500亿美元量级领跑一级市场,Kimi以200亿美元紧随其后,形成“两强领跑、两虎竞速”的全新格局。

4.百度文心5.1正式发布:预训练成本仅业界6%,登顶LMArena搜索榜国内第一

5月9日,百度正式发布新一代基础大模型文心5.1,采用原创的多维弹性预训练技术,仅以业界同规模模型约6%的预训练成本,达到基础效果领先水平。

LMArena大模型竞技场最新排名显示,文心5.1以1223分登上LMArena搜索榜国内第一、全球第四,是唯一进入搜索榜全球前五的国产模型,其创意写作能力与Gemini 3.1 Pro相当,推理能力接近业界领先闭源模型。目前,文心5.1已上线百度千帆模型广场和文心一言官网。

5月13日至14日,Create 2026百度AI开发者大会将在北京举办,进一步展示AI技术突破与产业落地的最新进展。

5.腾讯混元Hy3 preview调用量较Hy2暴涨10倍

5月7日,腾讯混元公布运营数据,自Hy3 preview上线以来,Token调用量持续攀升,总量已超过上一代版本模型Hy2的10倍,在代码和智能体类场景中增长尤为明显,腾讯内部WorkBuddy、CodeBuddy及Qclaw类应用总增幅突破16.5倍。

OpenRouter数据显示Hy3 preview在全球调用量周榜中排到总榜及市场占有率双第一,编程和工具调用场景调用量也排在榜首。

Hy3 preview是腾讯混元进行技术重构后推出的首个模型,采用快慢思考融合的MoE架构,总参数量2950亿,首批适配了256K长上下文窗口,任务成功率维持在99.99%的高位,并已全面接入腾讯元宝、QQ浏览器、微信读书等多条业务线。

此外,小米MiMo-V2.5系列于5月上旬正式全球开源,采用MIT许可证,同步推出“百万亿Token创造者激励计划”及“Agent生态共建计划”;通义千问团队于5月3日首次开源语音合成大模型Qwen3-TTS系列,将开源语音技术推向手机端可落地新阶段。

6.行业技术与舆情风险:MiniMax罕见“叫错人名”引发技术冷思考

在资本盛宴的另一面,技术层面的细微问题仍在提示行业距离成熟仍有距离。5月9日,MiniMax发布技术报告,承认其M2系列大模型在输出人名“马嘉祺”时出现异常。

排查发现,分词器将“嘉祺”切为独立词元,因后训练数据不足5条,致该词元参数被高频词元挤压偏移。

通过对20万词表的扫描,MiniMax发现约4.9%的Token存在类似退化现象,日语Token退化率高达29.7%,一度导致对话中混入俄语或韩语字符。

团队通过全词表合成数据修复,使日语混入率由47%降至1%。这个问题看似个案,却折射出大模型在分词器设计与高频场景数据覆盖之间的深层脱节,对模型工程化落地质量构成了实质性警示。

7.总结

5月第一周的国产大模型行业,正处于历史性的转折点上。DeepSeek以首轮估值500亿美元的天价强势入局资本市场,梁文锋或个人出资200亿元的罕见举动,让这家此前以“不接受融资”著称的公司瞬间成为估值体系的新锚点。Kimi以20亿美元融资半年内估值翻5倍,阶跃星辰集齐消费电子头部玩家冲刺港股IPO。

百度以文心5.1持续深耕实用性AI,腾讯混元Hy3 preview以调用量暴涨验证了Agent规模化落地的可行性。当资本竞赛日趋白热化之时,MiniMax“叫错人名”的技术细节可能微不足道,却提醒市场,融资额度不能转化为工程稳健性,客户留存终究只是镜花水月。

大模型行业的淘汰赛,正在从融资速度和估值规模的单维度竞争,走向资本实力、工程能力与商业化闭环的多维度综合较量。

88.jpg