登录

商汤SenseNova U 1深度拆解,原生统一架构终结缝合时代


速读:为了实现这一目标,NEO-Unify需要同时解决以下三组主要矛盾,三者呈递进关系:从输入输出接口层的表示统一,到训练稳定性的保障,再到理解与生成参数层的协同。 矛盾二(训练层):解决动态分辨率的信噪比失衡,实现生成稳定性。 下图为SenseNovaU1模型及NEO-Unify架构概览:。
2026年05月14日 18:

编辑|杜伟

当 AI 行业的目光集中在 Agent、工具调用、长程任务这些上层应用之时,底层的多模态架构正在经历一次更安静、也更彻底的范式转变 —— 它要回答的是一个看似朴素的问题: 理解与生成,是否天生就该是两件事 ?

长期以来,多模态系统大都是拼起来的 —— 感知与理解、生成各自承担一部分能力,再把它们串起来跑。问题也很明显:理解通过预训练视觉编码器(VE)实现,生成依赖变分自编码器(VAE),两套系统的学习目标不同、表示空间各异,信息在不同模块之间来回传递,难免出现损耗、走样。这不只是工程上的笨拙,更是一种结构性限制,阻碍了真正原生多模态智能的形成。

最近的一系列工作释放出了全新的信号,不执着「将系统拼的更好」,转而从底层入手,把图像、文本、视频甚至动作放进同一个表示空间去学习和对齐。商汤科技开源的新一代模型「日日新 SenseNova U1」正是这一方向上的集中实践。

上个月,Google DeepMind 用一个通用模型 Vision Banana,证明了「生成即理解」。SenseNova U1 基于 行业首创的 NEO-Unify 原生统一架构 ,让多模态理解、推理与生成在模型内部形成一条完整的链路,而非依靠外部模块拼接。

此次开源的轻量版 SenseNova U1 Lite 系列包含两个不同规格的模型: 基于稠密骨干网络的 SenseNova-U1-8B-MoT  和 基于 MoE 骨干网络的 SenseNova-U1-A3B-MoT( 总参数 38B,理解生成激活参数各 3B ) 。

模型规格概览 模型规格概览 模型在 Hugging Face 与 GitHub 开源后, 在海外开发者社区迅速引发讨论 。在 X、Reddit 等平台,「 完全去掉 VE 和 VAE 的统一架构」被视为近期多模态领域最值得关注的工程实践之一;开发者尤其关注其在 8B 规模下能挑战更大商业闭源模型的图文生成与编辑能力,以及完全开源(含代码、权重、技术报告)的策略选择。

就在日前,商汤科技放出了完整的技术报告:

技术报告:https://arxiv.org/abs/2605.12500

模型下载:https://huggingface.co/collections/sensenova/sensenova-u1

GitHub 代码仓库:https://github.com/OpenSenseNova/SenseNova-U1

回归第一性原理

多模态从拼接走向耦合

语言与视觉并非异质信号,而是对同一现实世界的不同编码 —— 这是 NEO-Unify 的出发点,也是 商汤科技在设计 SenseNova U1 时所回归的底层原则 。

基于这一原理, NEO-Unify 让模型直接从接近原始形态的信息(像素与文字本身)中学习,在学习过程中形成统一的内部表示 。理解与生成不再被拆开处理,而在同一体系中统一建模。

下图为 SenseNova U1 模型及 NEO-Unify 架构概览:

为了实现这一目标,NEO-Unify 需要同时解决以下三组主要矛盾,三者呈递进关系:从输入输出接口层的表示统一,到训练稳定性的保障,再到理解与生成参数层的协同。

矛盾一(接口层):消除模块割裂,打造近无损视觉接口。

传统模型依赖预训练的视觉编码器(如 CLIP)或解码器(如 VAE),这是语义理解与像素生成之间存在天然表示鸿沟的根源。NEO-Unify 采用了 Encoder-free 设计:输入端放弃预训练 VE,改用两层卷积加 GELU 激活将图像转化为 token(每个 token 对应 32×32 像素块);输出端同样放弃 VAE 解码器,直接用 MLP 预测原始像素块。

这种反传统设计让模型拥有了在「统一表示空间」自主学习的能力 —— 在提炼高层语义进行理解的同时,精确保留局部纹理和文字边缘以供生成。技术报告中的消融实验证实了这一点:NEO-unify(2B)在 MS COCO 2017 上的图像重建 PSNR 达 31.56、SSIM 达 0.85,接近 Flux VAE 的 32.65 和 0.91,说明近无损输入既能支持语义理解,也能维持像素级精度,无需依赖任何预训练编码器。

矛盾二(训练层):解决动态分辨率的信噪比失衡,实现生成稳定性。

在多模态理解与生成的统一架构中,模型需要处理从 256×256 到 2048×2048 的大跨度动态分辨率。传统扩散模型或 Flow Matching 往往基于固定噪声先验,当分辨率变化剧烈时,像素点数量级差异会导致模型在不同尺度下信噪比(SNR)不一致 —— 高分辨率下易结构崩坏或过饱和,低分辨率下可能丢失细节。

NEO-Unify 的解法是引入 分辨率自适应噪声尺度 :分辨率越高,生成的 token 数越多,噪声标准差就按平方根比例同步上调,从而使每个 token 在不同尺度下承受大致相同的噪声能量,保证 Flow Matching 过程中 SNR 分布的一致性。与此同时,这一自适应尺度被编码后作为条件引入去噪器,让模型在面对不同分辨率输入时始终保持一致的推理视角。

两者结合,保证模型在各种分辨率下生成更加稳定,避免尺度切换带来的训练不收敛和输出伪影。

矛盾三(参数层):以原生 MoT 架构实现「知识共享、专才专用」。

理解任务需要从图像中提取语义,生成任务需要将语义转化为像素 —— 二者目标不同,直接共享所有参数会产生梯度干扰。NEO-Unify 引入原生 Mixture-of-Transformers(MoT)架构:理解流与生成流在底层共享自注意力上下文,但在具体的 Q/K/V/O 投影、归一化及 MLP 层进行完全参数解耦,每层根据 token 类型动态路由。

这实现了「知识共享、专才专用」—— 理解与生成从互不干涉走向协同推进,技术报告的消融实验显示,两种能力在 MoT 骨干中协同演化,本质冲突极小。

此外,为让一维语言序列与二维图像结构在同一个 Transformer 架构下共存,NEO-Unify 引入了三维 RoPE 旋转位置编码(T/H/W 三轴各有独立频率基),从底层对齐语言顺序和空间结构;采用混合注意力(Mask)模式,文本 token 走标准因果注意力,同块图像 token 之间双向关注并保持对前置上下文的因果条件 —— 这在保证语言生成的逻辑连贯性,满足了图像块之间空间一致性的需求。

通过一系列架构上的创新,SenseNova U1 告诉行业: 真正的多模态智能不应只是给语言模型安上眼睛,要让模型从诞生的第一天起,就用同一套感官去认知和创造世界 。

数据、训推三位一体

打造原生统一引擎

架构上的创新构成了 SenseNova U1 的设计核心,而数据、训练与推理的深度协同支撑起了模型的高效运行。

训练数据:超 3.4 万亿 token 的全感官语料

SenseNova U1 在数据层面堪称「全感官大脑」。其中预训练语料约 2.1 万亿 token—— 在同类开源统一模型中属顶量级 —— 涵盖图文对、图注、信息图理解和纯文本,来源经过跨源去重、内容安全过滤、图像质量过滤和 CLIP 比率平衡重标注等。

中期训练阶段采用内部 SenseNova V6.5 数据集,覆盖通用、Agent 与空间、知识推理和纯文本四大类,并通过三阶段策划管道确保质量:基于 CLIP 的多样性采样→提示增强(从语义表达、格式约束、角色场景、任务复杂度四维扩展)→多标准质量筛选(正确性、幻觉检测、指令执行三维评估)。

主题:模型|生成|理解|NEO-Unify|理解与生成|商汤科技|技术报告