智源多模态大模型成果登上Nature杂志
2026-01-30 09:14 智源

1月28日,智源研究院主导的多模态大模型研究成果“通过预测下一个词元进行多模态学习的多模态大模型”正式上线国际顶级学术期刊Nature,预计2月12日刊发纸质版。资料显示,这是我国科研机构主导的大模型成果首次登陆Nature正刊。该研究推出的Emu3模型,核心突破在于仅采用“预测下一个词元”的自回归路线,将文本、图像、视频统一到同一表示空间,通过单一Transformer架构实现多模态数据的联合训练,无需依赖对比学习、扩散模型等专用路线。实验显示,其在文生图、视觉语言理解、视频生成等任务上的性能,可与各类成熟的任务专用模型相媲美,还能拓展至图文交错生成、机器人操作建模等场景。