全面开源!商汤日日新SenseNova U 1发布,首创连续性图文创作输出
全面开源!商汤日日新SenseNova U1发布,首创连续性图文创作输出
2026年04月28日 21:23

商汤科技刚刚正式发布并开源日日新SenseNova U1 系列原生理解生成统一模型。它基于商汤于今年三月自主研发的 NEO-unify架构,在单一模型架构上统一了多模态理解、推理与生成。
NEO-unify架构彻底摒弃了主流的拼接式,去除了视觉编码器(VE)和变分自编码器(VAE),重新构建了统一的表征空间,并且深入融入每一层计算中,从而实现从模态集成向原生统一的范式跨越。
业内首创连续性图文创作输出
凭借NEO-Unify架构的优势,SenseNova U1在业内首个实现连续性的图文创作输出。并且只需要单次单模型调用,就能输出更高质量的作品,相比传统范式,实现了效率的大幅提升。
SenseNova U1 所具备的原生图文理解生成能力,能天然将图像和文本底层融合信号完整的保留上下文中,区别于过去只能利用多模型串联勉强实现,它的图像间风格具备明显的高一致性,能在统一表征空间进行高效连贯思考。
比如让它分步骤讲解五分熟牛排做法并制图,SenseNova U1 可以通过思考和规划产生分步的过程,并且给每一步输出对应的图像展示。各个步骤的图示表现出极高的一致性。
又比如让它绘制一个 钢铁 侠图案:它可以从扫描草稿出发,逐步进行连续创作,最终做出一个完成度很高的图像。每一步创作的过程对于前一步的结构和细节都做了精准的保持——一个统一表征的共享上下文在其中发挥了关键作用。
SenseNova U1系列模型能够将语言与视觉信息作为统一的复合体直接建模,实现语言和视觉信息的高效协同,让理解与生成能力同步增强,在保留语义丰富度的同时,维持像素级的视觉保真度。
在逻辑推理与空间智能等方向上,它能够深度理解物理世界的复杂布局与精细关系;在未来,它还能为 机器人 提供具身大脑,实现在单一模型闭环内完成从复杂环境感知、逻辑推演到精准任务执行的全过程,为推动技术与产业发展提供重要基础与关键引擎。
极致高效,以小搏大
本次开源发布的是 SenseNova U1 的轻量版系列 SenseNova U1 Lite。它包含两个不同规格的模型:
·SenseNova-U1-8B-MoT:基于稠密骨干网络
·SenseNova-U1-A3B-MoT:基于混合专家(MoE) 骨干网络
效率,是统一模型架构的核心技术优势。
传统多模态模型是把视觉编码器和语言骨干通过适配器拼接在一起的。它像一个“说不同语言的人组成的工作组”:有人专门看图,把图像翻译为语言,有人专门理解文字,进行推理,有人把结果再翻译为设计指令,把图画出来。每完成一次任务,信息都要在不同成员之间来回传递。这个过程虽然可行,但难免会有等待、误解和信息损耗。为了弥补这些损耗,模型往往需要做得更大才能达到好的效果。
SenseNova U1 是基于统一表征空间构建的,更像是一个从一开始就同时掌握多项技能的人。它不是先看懂图像、再翻译成文字、再交给另一个系统理解,而是在同一套“思考方式”里直接处理图像、文字等不同信息。图像和语言不再是两套系统之间的接力,而是在同一个大脑中自然融合。这样带来的好处是:信息流转更快捷,理解更直接,生成更高效。模型不需要依赖单纯堆大参数来弥补中间转换的损耗,而是通过统一的内部表征,把不同模态的信息以更紧凑、更高密度的方式组织起来。
简单来说,传统架构像是“多人协作、层层转述”;SenseNova U1 更像是“一个全能大脑,直接理解,直接表达”。少了中间转译,信息损耗更低,也能在相对更精简的模型规模下,实现更强的多模态理解与生成能力。
在涵盖图像理解、图像生成与编辑、空间智能和视觉推理的多项基准测试中,SenseNova U1 Lite均达到同量级开源模型SOTA水平,为统一多模态理解与生成树立了新的标杆。甚至仅凭8B-MoT的较小规格,就能达到甚至超越部分大型商业闭源模型,展现出全维度多领域的统治力。
以下实际例子,展现了 SenseNova U1 Lite的商业级复杂信息图生成能力。
商汤正在沿着当前的技术路径继续 Scale,计划在未来推出体量更大的模型。商汤相信,基于高效的原生架构,可以以低得多的计算成本达到国际顶尖模型的水平。
(文章来源:上观新闻)