商汤发布并开源U1系列单一模型架构能否撬动多模态市场_科技

商汤发布并开源U1系列单一模型架构能否撬动多模态市场

2026-04-29 13:44 商汤

商汤发布并开源U1系列单一模型架构能否撬动多模态市场23

4月28日，商汤科技发布并开源日日新SenseNova U1系列原生理解生成统一模型。该系列基于今年3月商汤自主研发的NEO unify架构，在单一模型上统一了多模态理解、推理与生成。

传统多模态模型多采用视觉编码器搭配语言骨干的拼接方式，存在信息损耗。SenseNova U1去除了视觉编码器和变分自编码器，直接在像素上运行，重建统一表征空间。

该架构由商汤与南洋理工大学S Lab合作研发，让图像和文本在同一套表征体系中被直接处理，减少了模块间的信息损耗和延迟。

商汤本次开源的是轻量版SenseNova U1 Lite，包含两个规格：基于稠密网络的8B MoT版本，以及采用混合专家架构的A3B MoT版本。

相关代码已在GitHub和Hugging Face平台上线。商汤表示，未来计划推出体量更大的版本并公布详细技术报告。

效率是该模型较为突出的特点。8B参数规模下，它在多模态理解、生成与推理等多个维度上逼近甚至部分超越一些商业闭源模型。

在AI2D等理解基准中拿到91.7分，在复杂信息图生成任务中平均得分50.7，是目前开源模型里表现最强的。

在通用图像生成测试中，生成质量可比肩Qwen Image 2.0 Pro或Seedream 4.5，同时推理响应速度更快。

视觉推理方面，在VBVR（UMM）测试中拿到60.5分，高于Nano Bananaz的49.6。在WISE维度上取得69.0分，领先于Qwen Image的63.0。

此外，SenseNova U1支持连续性图文创作输出，只需单次单模型调用即可完成分步骤图文生成，图像风格保持高度连贯，这在行业内属首次实现。

该模型还表现出较强的物理空间理解能力，未来可应用于机器人系统，在单一模型闭环内完成环境感知、推理和任务执行。

商汤此次开源并非孤立行动。在国内开源大模型市场，阿里巴巴通义千问（Qwen）系列占据明显优势，截至2026年3月累计下载量突破10亿次，占全球开源模型总下载量50%以上。

DeepSeek则通过持续的价格策略压低了AI调用成本。商汤选择在这个时间点开源U1，市场分析认为其意图是从收取短期授权费转向构建开发者生态，复制阿里巴巴Qwen的路径，通过模型免费带动周边服务和基础设施实现商业变现。

开源能否帮助商汤在阿里Qwen已经占据主导的市场上打开局面，目前尚无定论。对商汤而言，关注点已从单一模型的技术指标，转向SenseNova整个生态系统的开发者活跃度和实际应用规模。

当技术架构的创新已经落地，接下来的问题在于开发者是否愿意迁移，以及与之配套的工具链和服务能否形成足够的黏性。

［本文作者i黑马，i黑马原创。如需转载请联系微信公众号（ID:iheima）授权，未经授权，转载必究。］