DeepSeek的新一代旗舰模型V4,最终选择了华为的昇腾芯片作为主要算力底座。
据The Information报道,这款预计未来几周发布的万亿参数大模型,将完全运行于华为的最新AI芯片之上。
这个决定并不轻松,DeepSeek为此付出了延期发布的代价,过去数月团队一直在与华为和寒武纪合作,对模型底层代码进行大量调整与重写。
从英伟达到华为的切换有多难?根据一位接近DeepSeek的工程师透露,适配过程中最耗时的并非算子重写,而是精度对齐,同样的模型在英伟达和昇腾上跑出一致结果,需要反复调试。
但这也说明国产芯片生态已经走到了一个临界点,模型方愿意投入真金白银来做深度适配。
硬件层面,华为提供了多款方案。基础算力支撑是今年3月亮相的昇腾910C,采用中芯国际7nm工艺,晶体管数量530亿,FP16精度下算力达800TFLOPS,内存带宽3.2TB/s。
DeepSeek团队的实测数据显示,昇腾910C在AI推理性能上已达到英伟达H100的约60%。
更高端的部署场景中,华为已发布搭载昇腾950PR的Atlas 350加速卡,算力达1PFLOPS(FP8)。再往后还有昇腾960、970,性能逐代翻倍。
市场已经在用订单投票,为应对V4云服务上线需求,阿里巴巴、字节跳动和腾讯已提前向华为下单数十万颗芯片。
这种抢货行为甚至推动了芯片价格上涨约20%,根据IDC数据,2025年中国AI加速服务器市场中,本土芯片厂商的市占率已攀升至约41%,华为凭借昇腾系列以81.2万张出货量占据国产芯片总出货量近一半。
这背后是美国出口管制的持续收紧。英伟达CEO黄仁勋直言,该公司在中国高端芯片市场的份额已从95%降至0%,2025年4月,英伟达专为中国设计的H20芯片也遭无限期停售。
外部供应被切断,国产芯片必须顶上。华为也在加速扩产,计划2026年生产约60万枚昇腾910C,并在2026年将昇腾产品线总产量推高至160万片。
但这条路并非没有挑战,昇腾910C的单卡算力仍与英伟达H100存在差距,华为给出的方案是通过“超节点”技术将大量相对单颗算力稍弱的芯片通过高速互联组成大规模集群来弥补。
深圳刚刚启用的国内首个万卡昇腾910C智算集群,总算力达1.1万P,实测故障率低至0.3‰、训练线性度达93.12%。集群方案有效,但能否真正支撑万亿参数级别的训练效率,还有待V4正式上线后的实际表现来验证。
DeepSeek V4与华为芯片的这次结合,本质上是外部封锁与内部替代共同作用的结果。
但一个核心问题仍然存在,当英伟达的新一代芯片在绝对算力和软件生态上继续迭代时,华为的昇腾能否仅仅依靠集群方案守住阵地?
或者更直白地说,国产AI芯片的这场“换芯”运动,究竟是战略倒逼下的无奈选择,还是真正意义上的生态重建?答案也许就在V4上线后的头几个月里。



