4月16日,腾讯发布混元3D世界模型2.0,并同步在GitHub、Hugging Face等平台开源。这款模型能够根据文字、图片、视频输入,直接生成可编辑、可交互的3D场景,并支持导出Mesh、3DGS、点云等格式,与Unity、UE等游戏引擎对接,用于快速产出游戏地图、仿真环境等资产。
相比上一代1.5版本以及谷歌的Genie 3,混元2.0的核心变化在于输出形式的升级。此前行业内的世界模型大多生成一段可播放的视频,而2.0版生成的是具备物理碰撞、可自由漫游、且能二次修改的3D世界。
用户输入一段描述或一张图片后,模型会产出一个包含人物、物体、环境的完整空间,支持角色模式下的交互探索。腾讯将其总结为从“捏物体”到“造世界”的跨越。
技术上,混元世界模型2.0采用统一框架处理空间理解、生成和重建。其中HY-Pano-2.0模块无需相机参数,即可从普通图片生成360度全景;空间Agent结合视觉语言模型与导航网格,为漫游路径规划;HY-WorldStereo保证新生成区域与既有场景在几何和视觉上保持衔接。
WorldMirror 2.0则能从视频或多视角图片中重建真实3D场景,一次性输出点云和相机参数。底层采用3DGS与Mesh混合表征,兼顾真实感与可编辑性。
据腾讯公布的评测,混元2.0在场景完整度以及对输入图片的遵循度上,优于李飞飞创立的WorldLabs旗下的Marble模型。开源策略使得开发者可以免费获取模型代码和权重,普通用户也能通过混元3D官网在线体验。
值得注意的是,3D生成领域并非只有腾讯在推进。谷歌Genie 3在2026年1月开放体验,可生成可探索的虚拟环境;Meta的MuseSpark专注实时3D场景生成;Stability AI的Stable Fast 3D主打从单张图0.5秒内生成模型;OpenAI的Shap-E也在持续迭代。
各家的技术侧重有所不同,谷歌和Meta更强调实时交互与沉浸感,Stability AI追求生成速度,而腾讯此次发布的2.0版本则将重点放在了输出资产的可编辑性以及与现有工业工作流的衔接上,强调模型产出的内容能够直接用于游戏开发和仿真任务。
一个开放的问题是,随着AI生成3D资产的门槛不断降低,游戏、影视、数字孪生等行业的生产流程会发生多大程度的变化。
开源模式能否真正让中小团队受益,还是说最终仍会形成少数大厂主导的工具生态,这还需要更多实际应用案例来观察。



