百度文心开源ERNIE-Image，复杂海报与多语言文字渲染能力全面升级_科技

百度文心开源ERNIE-Image，复杂海报与多语言文字渲染能力全面升级

2026-04-15 15:15 百度文心

百度文心开源ERNIE-Image，复杂海报与多语言文字渲染能力全面升级23

4月15日，百度文心大模型团队正式开源文生图模型ERNIE-Image。该模型主打复杂指令跟随、高密度文字渲染和多语言生成，参数量仅8B，24GB显存的消费级显卡即可本地运行。

官方称其在多项国际基准测试中文字渲染能力达到开源SOTA，与NanoBanana等商业闭源模型同属第一梯队。

文字渲染长期是文生图模型的痛点。Midjourney V8虽然相比V7大幅改善了文本生成稳定性，但仍需用户用引号标注内容，且复杂排版下容易出错。

ERNIE-Image的差异化在于，它不仅能生成清晰的单行文字，还能处理海报排版、学术图表、漫画分镜等需要精确布局和多种语言混合的场景。

模型针对中英日韩等语言做了字形和笔画的专门优化，在多语言文字同时出现时保持可读性。

技术架构上，ERNIE-Image采用单流Diffusion Transformer，并附带一个轻量级Prompt Enhancer，能将简短用户输入扩展为更结构化的描述。

模型权重和推理代码已在Hugging Face开源，采用Apache 2.0协议，同时支持ComfyUI工作流，并与Unsloth联合推出GGUF量化方案，降低了开发者的部署门槛。

在开源文生图赛道，阿里的Qwen Image 2.0同样强调中文汉字渲染和长文本输入能力，支持1K token的文字内容，定位专业PPT和信息图生成；字节的Seedream 5.0 Preview侧重检索增强生图与精细调控，主要通过API服务；谷歌的Nano Banana 2在2026年初发布时也重点宣传了文字繁重设计场景。

ERNIE-Image的独特之处在于完全开源权重，允许本地部署和二次开发，而非受限于云API调用。这为对数据隐私和部署灵活性有要求的用户提供了另一种选择。

ERNIE-Image的开源策略为开发者社区提供了新的选择，其后续在社区中的应用广度和工具链完善程度值得关注。

在通用图像质量和风格多样性方面，8B参数的ERNIE-Image与NanoBanana等商业闭源模型各有侧重，前者强调轻量部署与本地可控，后者依赖云端算力与闭源优化，实际创作中可根据需求互补使用。

当前文生图领域正从“生成好看图片”转向“高效解决实际问题”。海报设计、多语言广告本地化、信息图制作等场景对文字渲染和指令控制的精度要求越来越高。

ERNIE-Image选择在这个节点开源，既是百度在多模态大模型战略上的进一步落地，也是对开源社区的一次试探。

它能否真正成为设计师和开发者手中的实用工具，未来几个月的社区反馈会给出答案。

［本文作者i黑马，i黑马原创。如需转载请联系微信公众号（ID:iheima）授权，未经授权，转载必究。］