字节跳动首款全模态模型上线，长程智能体成新一轮竞争焦点_科技

字节跳动首款全模态模型上线，长程智能体成新一轮竞争焦点

2026-05-07 18:44 智能体

字节跳动首款全模态模型上线，长程智能体成新一轮竞争焦点23

5月6日，字节跳动火山引擎发布豆包大模型家族首款全模态理解模型Doubao-Seed-2.0-lite。

新版本已在火山方舟平台上线，支持视频、图像、音频、文本四种模态的原生统一理解，同时升级了智能体、代码生成和图形用户界面能力。

同批上线的还有同样支持全模态的Doubao-Seed-2.0-mini版本，主打更短的推理时间和更高的Token效率。

在视觉理解维度，新模型在物理（HiPhO）和医疗（MedXpertQA）等高阶学科推理任务上，表现已经超过了今年2月发布的Doubao-Seed-2.0-pro，在细粒度感知（BabyVision、WorldVQA）与具身理解（ERQA）等前沿领域达到了行业最优水平。

音频能力的扩展是这次升级的重要变化。模型支持19个语种的语音转写以及中英文与其他14个语种的互译，还能捕捉语音中的情绪变化与环境背景声。公开评测集显示，该模型在语音识别、翻译等多项音频理解基准上优于Gemini-3.1-Pro。

视频理解方面，模型能够联合分析画面与音频信息，精准判断视听一致性，支持根据自然语言指令在长视频中定位特定事件的时间点，并能跨越多个时间段提取线索、追踪人物与事件发展。

音频与视频的深度融合，使模型可以直接处理那些必须“音画结合”才能判断的复杂业务需求。

Agent能力的提升同样值得注意。模型对多轮、多步、多约束的用户指令遵循度显著增强，具备任务反思推理与多智能体协同调度能力，可在长程任务中自我拆解、自我校验，能连续执行跨越25小时的超长任务。

代码生成已覆盖前端页面、三维场景与游戏开发，交付产物在视觉美观度与工程完整度上均有提升。

GUI能力则将界面识别与操作执行打通，模型能识别按钮、菜单、弹窗等界面元素，并完成点击、输入、拖拽等操作，支持跨应用连续执行业务流程，实现端到端的任务交付。

当AI能看懂界面还会动手操作，人和机器之间的协作边界正在被重新定义。

从落地应用来看，该模型已在电竞、在线教育和跨境电商等领域推进。在电竞场景，AI可同步解析比赛画面与实时语音指令，自动生成高光时刻图谱与战术复盘；在教育领域，系统能动态识别教师授课状态与学生行为，输出结构化课堂表现评估；在跨境电商业务中，模型可完成商品信息检索、卖点拆解，并生成适配多语言市场的推广素材。

全模态加长程智能体正在成为大模型赛道的核心竞争方向。就在Doubao-Seed-2.0-lite发布前后，Anthropic于5月5日推出了Claude 4 Opus，深度集成Agent工作流，可直接调用工具、编写代码并自主浏览网页；DeepSeek的多模态功能也已开启灰度测试；腾讯混元Hy3 preview上线两周，Token调用总量已达到上一代Hy2的十倍。

中信证券预计，5月至6月将成为下一轮模型密集迭代窗口期，长程智能体和多模态将成为新的规模化扩展方向。

行业竞争也在从模型能力比拼延展至商业化落地。截至2026年3月，豆包大模型日均Token使用量已突破120万亿，较2024年5月首次发布时增长超过1000倍。

5月4日，字节跳动旗下AI助手豆包悄悄在苹果App Store上线了三档付费订阅方案。在一众国内竞品仍坚持免费、百度甚至宣布退费的同时，拥有超过3亿月活用户的豆包率先开启了付费模式。

当免费的午餐难以为继，大模型的竞争逻辑正在从“跑马圈地”转向“价值变现”。

［本文作者i黑马，i黑马原创。如需转载请联系微信公众号（ID:iheima）授权，未经授权，转载必究。］