百度文心开源ERNIE-Image,复杂海报与多语言文字渲染能力全面升级
2026-04-15 15:15 百度文心

百度文心开源ERNIE-Image,复杂海报与多语言文字渲染能力全面升级23

4月15日,百度文心大模型团队正式开源文生图模型ERNIE-Image。该模型主打复杂指令跟随、高密度文字渲染和多语言生成,参数量仅8B,24GB显存的消费级显卡即可本地运行。

官方称其在多项国际基准测试中文字渲染能力达到开源SOTA,与NanoBanana等商业闭源模型同属第一梯队。

文字渲染长期是文生图模型的痛点。Midjourney V8虽然相比V7大幅改善了文本生成稳定性,但仍需用户用引号标注内容,且复杂排版下容易出错。

ERNIE-Image的差异化在于,它不仅能生成清晰的单行文字,还能处理海报排版、学术图表、漫画分镜等需要精确布局和多种语言混合的场景。

模型针对中英日韩等语言做了字形和笔画的专门优化,在多语言文字同时出现时保持可读性。

技术架构上,ERNIE-Image采用单流Diffusion Transformer,并附带一个轻量级Prompt Enhancer,能将简短用户输入扩展为更结构化的描述。

模型权重和推理代码已在Hugging Face开源,采用Apache 2.0协议,同时支持ComfyUI工作流,并与Unsloth联合推出GGUF量化方案,降低了开发者的部署门槛。

在开源文生图赛道,阿里的Qwen Image 2.0同样强调中文汉字渲染和长文本输入能力,支持1K token的文字内容,定位专业PPT和信息图生成;字节的Seedream 5.0 Preview侧重检索增强生图与精细调控,主要通过API服务;谷歌的Nano Banana 2在2026年初发布时也重点宣传了文字繁重设计场景。

ERNIE-Image的独特之处在于完全开源权重,允许本地部署和二次开发,而非受限于云API调用。这为对数据隐私和部署灵活性有要求的用户提供了另一种选择。

ERNIE-Image的开源策略为开发者社区提供了新的选择,其后续在社区中的应用广度和工具链完善程度值得关注。

在通用图像质量和风格多样性方面,8B参数的ERNIE-Image与NanoBanana等商业闭源模型各有侧重,前者强调轻量部署与本地可控,后者依赖云端算力与闭源优化,实际创作中可根据需求互补使用。

当前文生图领域正从“生成好看图片”转向“高效解决实际问题”。海报设计、多语言广告本地化、信息图制作等场景对文字渲染和指令控制的精度要求越来越高。

ERNIE-Image选择在这个节点开源,既是百度在多模态大模型战略上的进一步落地,也是对开源社区的一次试探。

它能否真正成为设计师和开发者手中的实用工具,未来几个月的社区反馈会给出答案。

88.jpg