商汤发布并开源U1系列 单一模型架构能否撬动多模态市场
2026-04-29 13:44 商汤

商汤发布并开源U1系列 单一模型架构能否撬动多模态市场23

4月28日,商汤科技发布并开源日日新SenseNova U1系列原生理解生成统一模型。该系列基于今年3月商汤自主研发的NEO unify架构,在单一模型上统一了多模态理解、推理与生成。

传统多模态模型多采用视觉编码器搭配语言骨干的拼接方式,存在信息损耗。SenseNova U1去除了视觉编码器和变分自编码器,直接在像素上运行,重建统一表征空间。

该架构由商汤与南洋理工大学S Lab合作研发,让图像和文本在同一套表征体系中被直接处理,减少了模块间的信息损耗和延迟。

商汤本次开源的是轻量版SenseNova U1 Lite,包含两个规格:基于稠密网络的8B MoT版本,以及采用混合专家架构的A3B MoT版本。

相关代码已在GitHub和Hugging Face平台上线。商汤表示,未来计划推出体量更大的版本并公布详细技术报告。

效率是该模型较为突出的特点。8B参数规模下,它在多模态理解、生成与推理等多个维度上逼近甚至部分超越一些商业闭源模型。

在AI2D等理解基准中拿到91.7分,在复杂信息图生成任务中平均得分50.7,是目前开源模型里表现最强的。

在通用图像生成测试中,生成质量可比肩Qwen Image 2.0 Pro或Seedream 4.5,同时推理响应速度更快。

视觉推理方面,在VBVR(UMM)测试中拿到60.5分,高于Nano Bananaz的49.6。在WISE维度上取得69.0分,领先于Qwen Image的63.0。

此外,SenseNova U1支持连续性图文创作输出,只需单次单模型调用即可完成分步骤图文生成,图像风格保持高度连贯,这在行业内属首次实现。

该模型还表现出较强的物理空间理解能力,未来可应用于机器人系统,在单一模型闭环内完成环境感知、推理和任务执行。

商汤此次开源并非孤立行动。在国内开源大模型市场,阿里巴巴通义千问(Qwen)系列占据明显优势,截至2026年3月累计下载量突破10亿次,占全球开源模型总下载量50%以上。

DeepSeek则通过持续的价格策略压低了AI调用成本。商汤选择在这个时间点开源U1,市场分析认为其意图是从收取短期授权费转向构建开发者生态,复制阿里巴巴Qwen的路径,通过模型免费带动周边服务和基础设施实现商业变现。

开源能否帮助商汤在阿里Qwen已经占据主导的市场上打开局面,目前尚无定论。对商汤而言,关注点已从单一模型的技术指标,转向SenseNova整个生态系统的开发者活跃度和实际应用规模。

当技术架构的创新已经落地,接下来的问题在于开发者是否愿意迁移,以及与之配套的工具链和服务能否形成足够的黏性。

88.jpg