字节跳动首款全模态模型上线,长程智能体成新一轮竞争焦点
2026-05-07 18:44 智能体

字节跳动首款全模态模型上线,长程智能体成新一轮竞争焦点23

5月6日,字节跳动火山引擎发布豆包大模型家族首款全模态理解模型Doubao-Seed-2.0-lite。

新版本已在火山方舟平台上线,支持视频、图像、音频、文本四种模态的原生统一理解,同时升级了智能体、代码生成和图形用户界面能力。

同批上线的还有同样支持全模态的Doubao-Seed-2.0-mini版本,主打更短的推理时间和更高的Token效率。

在视觉理解维度,新模型在物理(HiPhO)和医疗(MedXpertQA)等高阶学科推理任务上,表现已经超过了今年2月发布的Doubao-Seed-2.0-pro,在细粒度感知(BabyVision、WorldVQA)与具身理解(ERQA)等前沿领域达到了行业最优水平。

音频能力的扩展是这次升级的重要变化。模型支持19个语种的语音转写以及中英文与其他14个语种的互译,还能捕捉语音中的情绪变化与环境背景声。公开评测集显示,该模型在语音识别、翻译等多项音频理解基准上优于Gemini-3.1-Pro。

视频理解方面,模型能够联合分析画面与音频信息,精准判断视听一致性,支持根据自然语言指令在长视频中定位特定事件的时间点,并能跨越多个时间段提取线索、追踪人物与事件发展。

音频与视频的深度融合,使模型可以直接处理那些必须“音画结合”才能判断的复杂业务需求。

Agent能力的提升同样值得注意。模型对多轮、多步、多约束的用户指令遵循度显著增强,具备任务反思推理与多智能体协同调度能力,可在长程任务中自我拆解、自我校验,能连续执行跨越25小时的超长任务。

代码生成已覆盖前端页面、三维场景与游戏开发,交付产物在视觉美观度与工程完整度上均有提升。

GUI能力则将界面识别与操作执行打通,模型能识别按钮、菜单、弹窗等界面元素,并完成点击、输入、拖拽等操作,支持跨应用连续执行业务流程,实现端到端的任务交付。

当AI能看懂界面还会动手操作,人和机器之间的协作边界正在被重新定义。

从落地应用来看,该模型已在电竞、在线教育和跨境电商等领域推进。在电竞场景,AI可同步解析比赛画面与实时语音指令,自动生成高光时刻图谱与战术复盘;在教育领域,系统能动态识别教师授课状态与学生行为,输出结构化课堂表现评估;在跨境电商业务中,模型可完成商品信息检索、卖点拆解,并生成适配多语言市场的推广素材。

全模态加长程智能体正在成为大模型赛道的核心竞争方向。 就在Doubao-Seed-2.0-lite发布前后,Anthropic于5月5日推出了Claude 4 Opus,深度集成Agent工作流,可直接调用工具、编写代码并自主浏览网页;DeepSeek的多模态功能也已开启灰度测试;腾讯混元Hy3 preview上线两周,Token调用总量已达到上一代Hy2的十倍。

中信证券预计,5月至6月将成为下一轮模型密集迭代窗口期,长程智能体和多模态将成为新的规模化扩展方向。

行业竞争也在从模型能力比拼延展至商业化落地。截至2026年3月,豆包大模型日均Token使用量已突破120万亿,较2024年5月首次发布时增长超过1000倍。

5月4日,字节跳动旗下AI助手豆包悄悄在苹果App Store上线了三档付费订阅方案。在一众国内竞品仍坚持免费、百度甚至宣布退费的同时,拥有超过3亿月活用户的豆包率先开启了付费模式。

当免费的午餐难以为继,大模型的竞争逻辑正在从“跑马圈地”转向“价值变现”。