灰度测试的页面截图在用户群里传开后,4月29日DeepSeek网页版正式上线了“识图模式”。试用反馈显示,该模式支持图片上传与内容理解分析,目前尚未全量推送。
同一天,DeepSeek负责多模态开发的研究员陈小康在X平台发文配图,标志性的鲸鱼“摘下”了眼罩,引发行业揣测。
几乎就在测试入口放出的同时,DeepSeek V4多模态满血版也被陈小康正式预告,距离V4系列纯文本版本的发布仅过去五天。
这位一向以纯文本能力著称的玩家,终于要补齐“视觉”这块缺失已久的拼图了。
V4刚发布不到五天,官方已经连续三轮降价,幅度和频次在业内罕见。但降价只是吸引注意力的前菜,前后脚流出的“视觉”模式选项,才是外界真正等待的那只靴子。
在最新客户端的模型选单里,“快速”“专家”“视觉”三个独立的选项并列而立,前两者分别对应V4的Flash和Pro版本,而“视觉”这个留了很久的坑位,不出意外正是为多模态预留的接口。
关于新版DeepSeek V4多模态的具体参数和性能边界,DeepSeek官方目前基本上三缄其口。
但参照V4 Pro在纯文本领域的水准,市场普遍预测它的视觉理解能力至少会冲进第一梯队。
DeepSeek历来不把冲评测榜排名当作最高优先级,外界更关注的是它能否延续一贯的性价比路线,把多模态API的调用成本打下来。如果这个预期成立,它对行业的影响可能比前几轮降价来得更猛烈。
就在DeepSeek紧锣密鼓推进多模态落地的同时,半个多月前发布的SuperCLUE-VLM 4月最新评测报告揭晓了一个相当有意思的结果,字节跳动旗下的Doubao-Seed-2.0-Pro-260215以90.66分拿下总榜冠军,一举超越了此前备受关注的谷歌Gemini-3.1-Pro-Preview〔89.35分〕。
这项评测涵盖全球17款主流大模型,阿里Qwen3.5系列、商汤SenseNova、智谱GLM等国产模型均跻身前列,而OpenAI的GPT-5.4和X.AI的Grok位列中游。
在基础认知和数据分析两个细分维度上,国产模型得分普遍超过90分,中文场景适配上的优势相当明显。不过在工业检测、高精度医疗影像等专业性较强的视觉推理任务上,国产模型与全球顶尖水平仍有差距。
如果把目光放回到整个行业,2026年开年以来围绕多模态的竞争已经进入了一个相当激烈的阶段。
阿里通义千问在3月下旬发布了旗舰级原生全模态大模型Qwen3.5-Omni,与常见的“视觉模型加语言模型加语音模型”拼接式方案不同,它采用原生端到端架构,基于超一亿小时的音视频数据完成预训练。
官方数据显示它拿下了215项SOTA成绩,通用音频理解全面超越Gemini-3.1 Pro,同时保持了文本与视觉能力不降智的水准。
Kimi在1月份拿出了K2.5,接着4月下旬又发布了K2.6。Kimi路线和DeepSeek差异不小,K2.5不止做多模态,更是直接往“能干活”的助理方向推进,百人规模的Agent集群并行执行任务,背后是月之暗面对系统智能和落地场景的押注。
商汤也在同一周发布并开源了SenseNova U1模型,基于单一框架整合多模态理解、推理和生成。
三年前困扰从业者的“轮到我了吗”式观望情绪,如今已经彻底让给了“来晚了吗”式的紧迫感,一位研究者的感慨点破了行业心态的微妙变化。
国产视觉模型在中文场景建立了实打实的壁垒,但这张牌桌远没有定型。DeepSeek在纯文本调用价格上已经杀到了行业地板价,多模态版能否复制同样的性价比优势,考验的不仅是技术能力,更是工程化能否延续V4 Pro的优异表现。
多模态能力迟早会像今天的文本对话一样成为基础设施,到那个时间点再看,到底是哪几家玩家把饼摊得最大。



