4月24日,深度求索正式上线DeepSeek-V4模型预览版并同步开源。
该模型主打百万字超长上下文,在Agent能力、世界知识和推理性能上均宣称实现国内及开源领域领先。
API服务同步更新,开发者通过deepseek-v4-pro或deepseek-v4-flash即可调用。
从参数规模看,此前信息显示完整版参数量达1.6万亿,Lite版为2850亿。
架构层面采用DSA2注意力机制,融合了DSA与NSA两种稀疏注意力方案,MoE混合专家系统每层配置384个专家、每次激活6个。
预训练上下文由此前的32K直接提升至100万token,扩充了近8倍。
性能方面,相关基准测试显示数学AIME 2026得分99.4%,通用知识MMLU 92.8%,编程SWE-Bench为83.7%、HumanEval 90%。
需要指出的是,上述测试数据多来自非官方渠道的早期披露,尚未获得独立验证。
客观来看,DeepSeek的这一更新还需置于行业竞争格局中审视。将上下文窗口拉到百万级别,DeepSeek并非先行者。
谷歌Gemini 1.5 Pro早在今年3月就已将上下文延展至200万token,相当于一次处理6万行代码,纸面数据碾压级别,但用户实测发现超过50万token后模型开始出现细节幻觉。而且200万token版本目前仅对企业开放,个人用户仍被限在128k。
这意味着长上下文技术从“能做”到“做得好”,各家都需要在效率与准确性之间找到平衡点。
国内赛道同样竞争激烈。月之暗面Kimi K2.6作为开源模型,具备262k的上下文窗口和1万亿总参数,同样支持视觉输入和多智能体架构,定位与DeepSeek-V4形成直接竞争关系。
OpenAI的GPT-4 Turbo虽在早期推动了大上下文概念,但128k的窗口在今天看来已不再领先。
那么问题来了,在谷歌Gemini已在2M量级布局而Kimi等对手持续迭代的背景下,DeepSeek-V4凭借开源权重和百万级上下文窗口能否在竞争白热化的市场中真正站稳脚跟?
答案取决于关键两点,一是正式版发布后独立评测能否验证其宣称的高性能,二是在真实应用场景中,百万以上长上下文的稳定性和准确度是否能经得住考验。
但无论如何,将百万级上下文普惠化并以开源姿态推向产业,本身已将国产大模型的竞争门槛整体抬高了一步。



