网易有道开源AI LobsterAI,实现图片视频生成
2026-06-02 11:34 网易有道

网易有道开源AI LobsterAI,实现图片视频生成23

国内大厂首个开源AI智能体产品LobsterAI(网易有道龙虾)近日宣布上线图片生成与视频生成能力,同时一次性接入了Seedream、Seedance、HappyHorse、MiniMax-Hailuo等四款主流多模态大模型。

这是继2026年2月网易有道推出国内首个100%代码开源的桌面级智能体以来,LobsterAI在能力边界上的又一次重要扩展。

从产品形态上看,LobsterAI本身并非一个自研的图像或视频生成模型,而是一个整合型桌面智能体。

它依托开源社区已有能力,通过界面集成将多个第三方模型的能力纳入统一工作流,用户无需在不同网页间切换,即可在一个对话框内完成从关键帧生成到动态视频延伸的全流程。

在计费方面,LobsterAI建立了透明积分体系,视频生成按秒计费,用户执行前会收到明确的积分消耗提示。

以具体场景来看,用户可以让Seedream生成宫崎骏风格的关键帧,然后让Seedance将其延展为动态视频,甚至在写儿童故事的同时生成风格统一的插画。

不过,LobsterAI这种策略并非没有代价。首先,视频生成能力高度依赖第三方模型,用户需要为接入的模型付费。据相关报道,视频生成任务费用约为100积分/秒,长期使用成本相对较高。

相比之下,一个竞争性选择来自阿里巴巴的WAN(万象)系列,后者是完全开源、可本地部署的视频生成模型,1.3B版本可在8GB显存的消费级显卡上运行,采用Apache 2.0商用授权,对开发者和中小企业的长期成本更具优势。

另一个角度是从模型层面的能力看LobsterAI所接入的模型。2026年的AI视频生成赛道已经形成了比较清晰的格局,字节跳动的Seedance依托即梦等产品,已经铺开了商业化版图,主打叙事连贯性和生态成熟度。

阿里巴巴的HappyHorse 1.0则采用完全开源的策略,突然登上全球AI评测平台Artificial Analysis的Video Arena排行榜榜首,在文本转视频和图像转视频两项核心评测中双双登顶,力压Seedance 2.0、可灵3.0等主流模型。

值得注意的是,HappyHorse采用了150亿参数的统一Transformer架构,实现了原生音视频同步生成,即画质和声音在同一个模型内部完成协同,不需要后期配音。

而LobsterAI接入了HappyHorse,但用户通过它调用该模型时获得的是能力,而非自主部署的灵活性,也无法进行模型的二次开发或LoRA微调,这在定制化需求上的局限性比较明显。

还需要看到的是,国内大厂在AI开源领域的整体氛围正在发生变化。Hugging Face发布的2026年春季全球开源AI生态报告显示,过去一年该平台上41%的大模型下载量来自中国研发的模型,国产开源大模型全球累计下载量突破100亿次。

阿里、腾讯、字节等都在推进不同程度和方向的AI开源布局,但各家的打法存在显著分化。

网易有道也在加速自己的AI战略布局,2026年5月下旬宣布将"子曰4"多模态模型(27B参数规模)和语音合成模型全量开源,该模型面向教育场景,在处理带图表的高难度视觉数理问题上达到了行业顶尖水平。

网易有道的策略是清晰的,以开源智能体为入口,降低普通用户接触多模态AI的门槛,再通过接入行业顶尖模型提供一站式创作体验。在这个过程中,有道自身也在积累模型能力,"子曰4"的开源布局为后续可能的技术转向预留了空间。

行业观点认为,2026年大模型多模态能力的重点将是全模态融合、图像和音视频的性能持续提升。同时,多模型矩阵式整合正在成为新趋势,用户可以一个平台体验多种模型优势。LobsterAI的上线正是这一趋势的具体体现。

但难点同样明显。如何在保证用户体验的同时控制成本,如何在接入第三方模型的情况下构建差异化竞争力,能否在后续版本中将集成模型的能力更深度地嵌入工作流、实现场景化的智能串联,这些都将直接影响LobsterAI的长期价值。

而对于网易有道而言,更大的考验在于这个开源智能体最终能否为其AI生态带来真正的商业增长,而不仅仅是技术展示。

88.jpg