多模态能力来了！DeepSeek正式上线“识图模式”_科技

多模态能力来了！DeepSeek正式上线“识图模式”

2026-04-29 17:54 DeepSeek

多模态能力来了！DeepSeek正式上线“识图模式”23

灰度测试的页面截图在用户群里传开后，4月29日DeepSeek网页版正式上线了“识图模式”。试用反馈显示，该模式支持图片上传与内容理解分析，目前尚未全量推送。

同一天，DeepSeek负责多模态开发的研究员陈小康在X平台发文配图，标志性的鲸鱼“摘下”了眼罩，引发行业揣测。

几乎就在测试入口放出的同时，DeepSeek V4多模态满血版也被陈小康正式预告，距离V4系列纯文本版本的发布仅过去五天。

这位一向以纯文本能力著称的玩家，终于要补齐“视觉”这块缺失已久的拼图了。

V4刚发布不到五天，官方已经连续三轮降价，幅度和频次在业内罕见。但降价只是吸引注意力的前菜，前后脚流出的“视觉”模式选项，才是外界真正等待的那只靴子。

在最新客户端的模型选单里，“快速”“专家”“视觉”三个独立的选项并列而立，前两者分别对应V4的Flash和Pro版本，而“视觉”这个留了很久的坑位，不出意外正是为多模态预留的接口。

关于新版DeepSeek V4多模态的具体参数和性能边界，DeepSeek官方目前基本上三缄其口。

但参照V4 Pro在纯文本领域的水准，市场普遍预测它的视觉理解能力至少会冲进第一梯队。

DeepSeek历来不把冲评测榜排名当作最高优先级，外界更关注的是它能否延续一贯的性价比路线，把多模态API的调用成本打下来。如果这个预期成立，它对行业的影响可能比前几轮降价来得更猛烈。

就在DeepSeek紧锣密鼓推进多模态落地的同时，半个多月前发布的SuperCLUE-VLM 4月最新评测报告揭晓了一个相当有意思的结果，字节跳动旗下的Doubao-Seed-2.0-Pro-260215以90.66分拿下总榜冠军，一举超越了此前备受关注的谷歌Gemini-3.1-Pro-Preview〔89.35分〕。

这项评测涵盖全球17款主流大模型，阿里Qwen3.5系列、商汤SenseNova、智谱GLM等国产模型均跻身前列，而OpenAI的GPT-5.4和X.AI的Grok位列中游。

在基础认知和数据分析两个细分维度上，国产模型得分普遍超过90分，中文场景适配上的优势相当明显。不过在工业检测、高精度医疗影像等专业性较强的视觉推理任务上，国产模型与全球顶尖水平仍有差距。

如果把目光放回到整个行业，2026年开年以来围绕多模态的竞争已经进入了一个相当激烈的阶段。

阿里通义千问在3月下旬发布了旗舰级原生全模态大模型Qwen3.5-Omni，与常见的“视觉模型加语言模型加语音模型”拼接式方案不同，它采用原生端到端架构，基于超一亿小时的音视频数据完成预训练。

官方数据显示它拿下了215项SOTA成绩，通用音频理解全面超越Gemini-3.1 Pro，同时保持了文本与视觉能力不降智的水准。

Kimi在1月份拿出了K2.5，接着4月下旬又发布了K2.6。Kimi路线和DeepSeek差异不小，K2.5不止做多模态，更是直接往“能干活”的助理方向推进，百人规模的Agent集群并行执行任务，背后是月之暗面对系统智能和落地场景的押注。

商汤也在同一周发布并开源了SenseNova U1模型，基于单一框架整合多模态理解、推理和生成。

三年前困扰从业者的“轮到我了吗”式观望情绪，如今已经彻底让给了“来晚了吗”式的紧迫感，一位研究者的感慨点破了行业心态的微妙变化。

国产视觉模型在中文场景建立了实打实的壁垒，但这张牌桌远没有定型。DeepSeek在纯文本调用价格上已经杀到了行业地板价，多模态版能否复制同样的性价比优势，考验的不仅是技术能力，更是工程化能否延续V4 Pro的优异表现。

多模态能力迟早会像今天的文本对话一样成为基础设施，到那个时间点再看，到底是哪几家玩家把饼摊得最大。

［本文作者i黑马，i黑马原创。如需转载请联系微信公众号（ID:iheima）授权，未经授权，转载必究。］