商汤SenseNova U 1深度拆解，原生统一架构终结缝合时代

速读：为了实现这一目标，NEO-Unify需要同时解决以下三组主要矛盾，三者呈递进关系：从输入输出接口层的表示统一，到训练稳定性的保障，再到理解与生成参数层的协同。矛盾二（训练层）：解决动态分辨率的信噪比失衡，实现生成稳定性。下图为SenseNovaU1模型及NEO-Unify架构概览：。

2026年05月14日 18:

编辑｜杜伟

当 AI 行业的目光集中在 Agent、工具调用、长程任务这些上层应用之时，底层的多模态架构正在经历一次更安静、也更彻底的范式转变 —— 它要回答的是一个看似朴素的问题：理解与生成，是否天生就该是两件事？

长期以来，多模态系统大都是拼起来的 —— 感知与理解、生成各自承担一部分能力，再把它们串起来跑。问题也很明显：理解通过预训练视觉编码器（VE）实现，生成依赖变分自编码器（VAE），两套系统的学习目标不同、表示空间各异，信息在不同模块之间来回传递，难免出现损耗、走样。这不只是工程上的笨拙，更是一种结构性限制，阻碍了真正原生多模态智能的形成。

最近的一系列工作释放出了全新的信号，不执着「将系统拼的更好」，转而从底层入手，把图像、文本、视频甚至动作放进同一个表示空间去学习和对齐。商汤科技开源的新一代模型「日日新 SenseNova U1」正是这一方向上的集中实践。

上个月，Google DeepMind 用一个通用模型 Vision Banana，证明了「生成即理解」。SenseNova U1 基于行业首创的 NEO-Unify 原生统一架构，让多模态理解、推理与生成在模型内部形成一条完整的链路，而非依靠外部模块拼接。

此次开源的轻量版 SenseNova U1 Lite 系列包含两个不同规格的模型：基于稠密骨干网络的 SenseNova-U1-8B-MoT 和基于 MoE 骨干网络的 SenseNova-U1-A3B-MoT（总参数 38B，理解生成激活参数各 3B ）。

模型规格概览模型在 Hugging Face 与 GitHub 开源后，在海外开发者社区迅速引发讨论。在 X、Reddit 等平台，「完全去掉 VE 和 VAE 的统一架构」被视为近期多模态领域最值得关注的工程实践之一；开发者尤其关注其在 8B 规模下能挑战更大商业闭源模型的图文生成与编辑能力，以及完全开源（含代码、权重、技术报告）的策略选择。

就在日前，商汤科技放出了完整的技术报告：

技术报告：https://arxiv.org/abs/2605.12500

模型下载：https://huggingface.co/collections/sensenova/sensenova-u1

GitHub 代码仓库：https://github.com/OpenSenseNova/SenseNova-U1

回归第一性原理

多模态从拼接走向耦合

语言与视觉并非异质信号，而是对同一现实世界的不同编码 —— 这是 NEO-Unify 的出发点，也是商汤科技在设计 SenseNova U1 时所回归的底层原则。

基于这一原理， NEO-Unify 让模型直接从接近原始形态的信息（像素与文字本身）中学习，在学习过程中形成统一的内部表示。理解与生成不再被拆开处理，而在同一体系中统一建模。

下图为 SenseNova U1 模型及 NEO-Unify 架构概览：

为了实现这一目标，NEO-Unify 需要同时解决以下三组主要矛盾，三者呈递进关系：从输入输出接口层的表示统一，到训练稳定性的保障，再到理解与生成参数层的协同。

矛盾一（接口层）：消除模块割裂，打造近无损视觉接口。

传统模型依赖预训练的视觉编码器（如 CLIP）或解码器（如 VAE），这是语义理解与像素生成之间存在天然表示鸿沟的根源。NEO-Unify 采用了 Encoder-free 设计：输入端放弃预训练 VE，改用两层卷积加 GELU 激活将图像转化为 token（每个 token 对应 32×32 像素块）；输出端同样放弃 VAE 解码器，直接用 MLP 预测原始像素块。

这种反传统设计让模型拥有了在「统一表示空间」自主学习的能力 —— 在提炼高层语义进行理解的同时，精确保留局部纹理和文字边缘以供生成。技术报告中的消融实验证实了这一点：NEO-unify（2B）在 MS COCO 2017 上的图像重建 PSNR 达 31.56、SSIM 达 0.85，接近 Flux VAE 的 32.65 和 0.91，说明近无损输入既能支持语义理解，也能维持像素级精度，无需依赖任何预训练编码器。

矛盾二（训练层）：解决动态分辨率的信噪比失衡，实现生成稳定性。

在多模态理解与生成的统一架构中，模型需要处理从 256×256 到 2048×2048 的大跨度动态分辨率。传统扩散模型或 Flow Matching 往往基于固定噪声先验，当分辨率变化剧烈时，像素点数量级差异会导致模型在不同尺度下信噪比（SNR）不一致 —— 高分辨率下易结构崩坏或过饱和，低分辨率下可能丢失细节。

NEO-Unify 的解法是引入分辨率自适应噪声尺度：分辨率越高，生成的 token 数越多，噪声标准差就按平方根比例同步上调，从而使每个 token 在不同尺度下承受大致相同的噪声能量，保证 Flow Matching 过程中 SNR 分布的一致性。与此同时，这一自适应尺度被编码后作为条件引入去噪器，让模型在面对不同分辨率输入时始终保持一致的推理视角。

两者结合，保证模型在各种分辨率下生成更加稳定，避免尺度切换带来的训练不收敛和输出伪影。

矛盾三（参数层）：以原生 MoT 架构实现「知识共享、专才专用」。

理解任务需要从图像中提取语义，生成任务需要将语义转化为像素 —— 二者目标不同，直接共享所有参数会产生梯度干扰。NEO-Unify 引入原生 Mixture-of-Transformers（MoT）架构：理解流与生成流在底层共享自注意力上下文，但在具体的 Q/K/V/O 投影、归一化及 MLP 层进行完全参数解耦，每层根据 token 类型动态路由。

这实现了「知识共享、专才专用」—— 理解与生成从互不干涉走向协同推进，技术报告的消融实验显示，两种能力在 MoT 骨干中协同演化，本质冲突极小。

此外，为让一维语言序列与二维图像结构在同一个 Transformer 架构下共存，NEO-Unify 引入了三维 RoPE 旋转位置编码（T/H/W 三轴各有独立频率基），从底层对齐语言顺序和空间结构；采用混合注意力（Mask）模式，文本 token 走标准因果注意力，同块图像 token 之间双向关注并保持对前置上下文的因果条件 —— 这在保证语言生成的逻辑连贯性，满足了图像块之间空间一致性的需求。

通过一系列架构上的创新，SenseNova U1 告诉行业：真正的多模态智能不应只是给语言模型安上眼睛，要让模型从诞生的第一天起，就用同一套感官去认知和创造世界。

数据、训推三位一体

打造原生统一引擎

架构上的创新构成了 SenseNova U1 的设计核心，而数据、训练与推理的深度协同支撑起了模型的高效运行。

训练数据：超 3.4 万亿 token 的全感官语料

SenseNova U1 在数据层面堪称「全感官大脑」。其中预训练语料约 2.1 万亿 token—— 在同类开源统一模型中属顶量级 —— 涵盖图文对、图注、信息图理解和纯文本，来源经过跨源去重、内容安全过滤、图像质量过滤和 CLIP 比率平衡重标注等。

中期训练阶段采用内部 SenseNova V6.5 数据集，覆盖通用、Agent 与空间、知识推理和纯文本四大类，并通过三阶段策划管道确保质量：基于 CLIP 的多样性采样→提示增强（从语义表达、格式约束、角色场景、任务复杂度四维扩展）→多标准质量筛选（正确性、幻觉检测、指令执行三维评估）。