刚刚,火山引擎多模态数据湖解决方案发布大数据运维Agent
2025-12-18 18:27 火山引擎

12月18日,2025火山引擎Force原动力大会·冬在上海举办,在当天下午的Data +AI论坛上,火山引擎数智平台提出企业数智化从“数据驱动”迈向“认知驱动”新阶段,并推出了通过多模态数据湖、数据智能体服务和高质量数据集在内的打造“企业认知引擎”的「Data +AI」方案服务。

火山引擎数智平台解决方案总经理萧然发布「企业认知引擎」

据了解,「认知驱动」升级源于企业海量数据积累,以及企业级AI应用全面启动的双重背景下。数据显示,2024年中国数据总量已经突破41ZB(ZettaByte,泽字节,计算机存储容量单位),其中多模态数据占比更是超过80%;另一方面,2025年中国日均Token消耗已经突破30万亿,同比增长300倍——传统的数据驱动已经无法满足企业在现阶段的需求。

大数据运维Agent首发亮相

作为激发能量的“动力系统”,火山引擎多模态数据湖解决方案将为企业提供激发「Data+AI」能力升级的无尽能量。

会上,火山引擎数智平台产品总监王彦辉对多模态数据湖解决方案做了具体阐释,火山引擎多模态数据湖解决方案通过存储与计算范式的创新,能够帮助企业构建适应AI时代的智能数据基础设施,其核心在于“湖存储Lance+湖计算Daft”,可以针对企业当前面临的多项非结构化数据处理痛点进行逐一攻破。

但多模态数据湖解决方案并非一成不变,而是能够依据时代的变化不断完成进化和升级。王彦辉指出,现阶段的多模态数据湖解决方案正在完成从分析师友好型基建到模型友好型基建的升级。

模型友好型,指的是能够通过大模型能力的运用,将数据基础设施建设中原本强依赖于人工的繁杂工作,交由大模型指令来完成——仅在企业的数据建设运维场景,火山引擎多模态数据湖就推出了三款可对接不同类型引擎底座的大数据运维Agent:EMR 智能运维 Agent、ByteHouse 智能运维 Agent,以及Flink智能运维 Agent。

有别于企业过去在运维场景部署的监控助手,大数据运维Agent更像是集合“眼、脑、手”于一体的智能综合体,除了能进行24小时全天候监测,当发现异常时还可自主定位问题点并完成原因分析,并输出对应解决方案,运维岗位员工只需确认方案可行性,并做执行即可,在最大限度保障响应时效性和定位时效性的基础上,充分节省人力资源,将人的作用转移到需要更多主观能动性的工作上。

大数据运维Agent贯穿企业数据运维方方面面

大数据运维Agent 核心解决的问题主要可分为三大类。

首先是响应延迟,过去从问题发生到被发现、定位、解决,中间的时间差可能从几分钟到十几小时不等,未能及时做好响应和处理将导致业务层的巨大损失和用户体验感的下降。

其次是人力瓶颈,强依赖人力的传统运维手段难以应对成千上万的服务器和应用,更谈不上全天候监测跟精细化管理。

最后是数据孤岛问题,当监控、日志等系统各自为营,数据就无法进行有效关联,导致出现问题时归因分析耗时耗力。

所以,基于这三类共性痛点,大数据运维 Agent 的核心能力也聚焦在三方面:

第一项能力:智能知识问答。Agent 可支持通过智能问答,提供秒级响应的即时技术支持。

在问答过程中,大数据运维 Agent 可对提问进行语义识别和意图澄清,并联动对应的产品知识库与产品文档,为用户输出准确、可操作的回复建议。

国内某游戏公司的运维岗位新员工在使用 ByteHouse 产品的过程中,偶有遇到对部分产品功能或某些特定函数参数不清楚的地方,过去只能通过人工搜索文档或寻求产品客服接入支持,链路长且耗时久。

但现在通过产品内置的 ByteHouse 智能运维助手,只需唤醒进入界面,即可在对话框内以自然语言方式搜索想要了解的内容关键词,ByteHouse 智能运维 Agent 就能进行模糊匹配,自主检索相关内容并完成展现,数据显示,整个查询过程可控制在半分钟内完成。

第二项能力:集群智能诊断。当出现异常情况时,Agent 能够一键对 CPU/内存负载、异常节点、数据磁盘,以及查询任务、合并任务、变更任务、导入任务等,进行包括作业任务粒度、软件服务粒度和硬件资源粒度的诊断分析,快速定位问题的核心根因,并给出优化建议,这一方面可以减少人力时间的投入,另一方面也降低了问题排查门槛,使运维工作不再强依赖于运维人员的大数据知识积累。

国内某互联网房产平台,内部中台部门基于 EMR Serverless 构建了内部服务平台,但由于其他部门对EMR 并不熟悉,以及中台人力资源有限、大数据运维相关经验不足等问题,当出现报错时很难进行及时高效的问题排查。

EMR 上线的 EMR 数据运维智能体则能高效解决这一问题,通过点击 EMR 数据运维智能体的“一键AI诊断”,就能及时输出诊断报告,并提供针对性的优化建议,相关负责人只需要依据诊断报告加以确认,再根据建议方案完成修复即可保障平台再次稳定运行,过去需要多人投入从排查问题到修复问题的工作量,现在只需一人就可在10分钟内完成。

第三项能力:实时任务智能诊断。 Agent 支持对实时计算任务进行全链路智能分析,无论是任务执行失败、反压、延迟上涨等异常,还是无报错但效率低下的潜在问题,Agent都能自动捕获任务错误码、异常堆栈、资源指标与数据处理链路信息,精准定位算子异常、链路瓶颈、数据倾斜、Shuffle 等问题根源。同时自动生成任务配置优化、链路拆解、资源分配调整、SQL/代码片段修正等优化建议,确保任务稳定运行并有效提升执行效率,实现实时任务的降本增效。

在国内某新能源车企的智能驾驶运营分析场景中,由于实时任务链路长、算子与参数配置复杂、资源使用差异大,如果员工对 Flink 技术体系理解不深,将面临高排查门槛,问题定位耗时长且易出错。传统人工排查方式难以快速识别链路异常、资源瓶颈或任务行为不一致的问题。

但借助 Flink 智能运维 Agent,员工可按需选择检测范围,从任务重启检查、数据链路分析、任务配置分析、资源使用分析四大维度进行自动化诊断,以自然语言告知异常点/风险点,并同步溯源机制及和操作的修复建议。企业反馈,通过 Flink 智能运维 Agent,非专家人员也能 0 门槛完成实时任务排查,整体诊断效率提升超过 10 倍。

大数据运维Agent的发布,能让火山引擎多模态数据湖更进一步地降低企业构建 AI 时代智能数据基础设施的门槛、提升运维系统的稳定,切实为企业激发「Data + AI」能力提供充足动力,实现新阶段的认知引擎升级。