VAST+清华提出3 D生成新范式，空间智能密度控制「把算力花在刀刃上」

速读：3D高斯的优化过程有一个关键优点，也恰恰也是它最难被Diffusion等生成式模型继承的部分，就是空间密度控制(densitycontrol)。在3D高斯优化过程里，优化算法会不断做密集化(densification)和稀疏化(pruning)。如果某些高斯贡献不大，就把它们删掉。在推理时，模型从这个分布里直接采样出一批高斯球，组成最终的3D高斯资产。作者把它称为渲染损失贡献梯度(renderlosscontributiongradient)，本质上是一种强化学习策略，可以理解为一种面向高斯采样的。

VAST+清华提出3D生成新范式，空间智能密度控制「把算力花在刀刃上」| SIGGRAPH 2026

2026年05月21日 11:

如果把现在最热门的几条 3D 生成技术线放在一起看，你会发现它们正在遇到一个很像的问题。

做 3D AIGC 的人会发现，模型已经越来越会 “生成一个东西”，但生成结果的复杂度很固定，不够灵活；做图形学和渲染的人会更在意，3D 表示到底能不能把有限的计算预算用在最关键的地方；做游戏、XR 和交互内容的人则会继续追问，同一个 3D 资产能不能既有高质量版本，也有轻量版本，而不是每次都重新做一套。

这些问题背后，其实都指向同一个核心矛盾：

今天很多 3D 生成方法，虽然能生成 3D 结果，但还不够 “会分配资源”。

以 3D 高斯表示为例，哪里高斯球应该密一点，哪里可以稀疏一点；哪里值得放更多表示能力，哪里只需要一个粗略近似，很多方法其实并没有真正学会。现有方法更像是在用一种固定模板生成 3D，而不是根据物体本身的结构复杂度，自适应地决定 “该放多少高斯、放在哪里”。

SIGGRAPH 2026 论文《Generative 3D Gaussians with Learned Density Control》，想解决的正是这个问题。

论文：《 Generative 3D Gaussians with Learned Density Control 》

论文链接：https://arxiv.org/abs/2605.16355

这篇工作来自 VAST 和清华大学，提出了一种新的 3D 表示方式 Density-Sampled Gaussians（DeG）。它的目标不是简单生成固定数量的 3D 高斯球，而是让模型自己学会一种 “高斯球采样策略”: 在复杂区域多放高斯球，在简单区域少放高斯球，并且这种策略还能直接从渲染误差里学出来。

这件事听起来像是工程优化，但其实非常关键。因为它决定了 3D 生成结果最终是一个 “看起来还行但很笨重的静态输出”，还是一个真正可以按预算伸缩、按需求部署、按场景适配的 3D 表示。

过去一段时间，3D 高斯之所以火，一个很重要的原因是它在画质和效率之间找到了很好的平衡。它不用像传统网格那样依赖复杂拓扑，也能渲染出高质量结果。3D 高斯的优化过程有一个关键优点，也恰恰也是它最难被 Diffusion 等生成式模型继承的部分，就是空间密度控制 (density control) 。

在 3D 高斯优化过程里，优化算法会不断做密集化 (densification) 和稀疏化 (pruning)。简单理解就是：

如果某个局部没拟合好，就往那里 “补” 更多高斯；如果某些高斯贡献不大，就把它们删掉。

这套机制很有效，因为现实里的 3D 物体本来就不是均匀复杂的。边缘、薄结构、纹理剧烈变化的区域，需要更多表示能力；而大块平整、变化不大的区域，其实没必要堆太多高斯球。

问题在于，这种 “补点和删点” 的流程本质上是离散的、启发式的、不可微分的。

这个过程对单个物体的拟合很有用，但不可为微分的特性对一个做前馈式生成、从图像直接预测 3D 高斯的模型来说，就很难直接搬过来套用。于是很多现有方法退而求其次，选择固定结构:

有的方法把高斯绑在体素网格上 (GaussianCube)；

有的方法给每个 voxel 分配固定数量的高斯 (TRELLIS.1)；

有的方法给每个 2D 图像的像素预测固定数量的高斯 (LGM)。

这样做当然更容易训练，但代价也很明显：失去了 3D 高斯最珍贵的灵活性。

DeG 的核心思路，就是把 “高斯球中心在哪” 这件事，从一个固定回归问题，改写成一个从概率密度里采样的问题。

换句话说，模型不再死板地输出一组固定坐标，而是先学一个 3D 空间里的概率密度分布。这个分布可以理解为：

哪些位置更值得放高斯，哪些位置没那么重要，即实现了某种 “空间智能密度控制” 。

在推理时，模型从这个分布里直接采样出一批高斯球，组成最终的 3D 高斯资产。

这样一来，整个表示立刻获得了两个非常实用的能力。

第一个能力，是任意数量采样。

因为模型学到的是 “分布”，而不是 “固定长度输出”，所以在推理时可以按实际需求采样不同数量的高斯球。想做移动端、实时预览或者低成本传输，可以少采一些；想做高保真渲染、离线展示或者更复杂场景，可以多采一些。

也就是说，这不是 “每种分辨率都要重新训一个模型”，而是同一个模型、同一个表示，根据预算直接调采样数。

考虑到 3D 高斯的渲染成本并不低，灵活的高斯球数量对实际部署非常重要。因为很多应用要的不是绝对最强画质，而是 “在当前设备和当前时延预算下，拿到最合适的 3D 资产”。

第二个能力，是非均匀采样。

DeG 并不是在整个空间里平均撒点，而是会在模型训练时根据渲染重构损失，把更多采样预算放到真正复杂的区域。比如薄的结构、尖锐边缘、局部几何变化大、纹理更敏感的区域，都可以自然得到更高密度；而在平坦、规则、变化较小的区域，则可以少放一些高斯。

这意味着，模型开始真正具备一种 “哪里重要就把容量放哪里” 的能力。

而这，也是本文最有意思的算法问题所在：

这个空间上的智能密度控制策略，到底怎么学？

很多人第一次看到这里会觉得，既然最后有渲染损失，那就直接反向传播不就行了？

但真正的难点在于，高斯球的位置是采样出来的。采样本身不是一个普通的连续映射，因此渲染误差没法像常规神经网络那样，顺滑地一路反传回 “空间密度分布”。

也就是说，模型虽然知道渲染结果哪里错了，却不容易知道：

到底应该提高哪些区域被采样到的概率，又该降低哪些区域的概率。

这篇论文的关键突破，就是给这个问题构造了一个可训练的梯度信号。作者把它称为渲染损失贡献梯度 (render loss contribution gradient) ，本质上是一种强化学习策略，可以理解为一种面向高斯采样的 policy gradient 。

这个想法其实很直观。

假设当前我们从密度分布里采样出了一批高斯球。现在，如果把其中某一个高斯球去掉，重新看渲染损失会发生什么？

如果去掉它之后，渲染结果明显变差，说明这个高斯球很重要，它确实帮模型把这个区域表示好了。那么系统就应该提升类似位置今后被采样到的概率。

反过来，如果去掉它几乎没影响，甚至让结果更好，那说明这类位置的采样价值不高，概率就不该那么大。

换成更口语的话，这个梯度在回答的问题其实就是：

“这一个被采到的高斯球，到底值不值得被采到？”

这就是一种非常典型的策略学习视角。采样位置像是在 “做决策”，渲染误差则提供 “奖惩信号”。对降低误差有帮助的位置，就奖励；帮助不大的位置，就少奖励甚至惩罚。

从数学上看，这套思路和 policy gradient 是一致的。作者把它进一步写成了 difference reward 的形式，也就是比较 “有这个高斯球” 和 “没有这个高斯球” 时，渲染损失到底相差多少。这个差值，正好刻画了该高斯球的边际贡献。

更重要的是，这里不只是一个直觉上说得通的解释，而是有明确的正确性依据。论文直接从 “渲染损失期望值” 出发，计算了它对密度分布参数的梯度大小，最后得到的就是这里真正用来优化的梯度信号，也就是渲染损失贡献梯度。换句话说，作者并不是凭经验设计了一个看起来合理的训练技巧，而是在用梯度下降的方式，直接优化高斯该如何分布、如何采样；这和传统高斯里基于人工规则的剪枝、密化，是结果类似、但思路完全不同的一条路。

如果严格去算每个高斯球的 leave-one-out 贡献，代价会非常高，因为看起来像是要把每个高斯都单独删掉，再重新渲染一遍。

接下来的问题就变成了：这个目标虽然定义得很清楚，但怎样才能把它高效算出来？作者针对 L1 渲染损失给出了一种相当精确、同时又很高效的计算办法。

简单来说，对于 L1 渲染项，渲染器在正常渲染过程中其实已经拿到了几个关键数值，只需要做一点额外计算，就能得到我们需要的贡献值，而不必反复删掉高斯再重渲染。具体计算过程可以直接阅读论文中的伪代码。

这样一来，原本依赖规则的密集化 / 稀疏化过程，就被改写成了一个可微、可学习、可批量训练的空间密度优化过程。这篇工作第一次把 3D 高斯的密度控制，真正实现成了一个端到端优化的问题。

在以往的高斯方法里，密度控制更多是靠人工规则驱动的，比如什么时候分裂、什么时候删点、阈值怎么设、什么区域算 “该加密” 或 “该剪枝”，本质上都还是启发式设计。DeG 的不同之处在于，它不再依赖这些手工定义的规则去调度高斯数量，而是让 “哪里该多采、哪里该少采” 直接由渲染误差反向决定。

如果从应用视角看，这套方法的价值更能直观体现。

首先，它让 3D 资产真正具备了按预算伸缩的能力。

以前很多方法一旦生成完成，输出规模基本就固定了。你想要更轻量，往往只能后处理压缩；你想要更高质量，也常常意味着重新训练、重新拟合，或者一开始就背上很重的表示成本。

而在 DeG 里，模型输出的是一个 “可采样的密度”。这意味着同一个对象，可以自然得到不同规模的高斯版本。对移动端、实时交互、在线预览来说，可以采样更少、更轻的版本；对影视级展示、数字藏品、离线精修等任务，则可以直接提高采样预算，得到更密、更细致的版本。

其次，它让 3D 表示真正开始理解局部复杂度。

很多固定结构方法的问题不在于它们不能生成高斯，而在于它们不知道哪些地方更值得花预算。结果往往是简单地方堆得太多，复杂地方反而不够。DeG 的非均匀采样恰好反过来，把容量更集中地放在细节、边界、薄结构和高误差区域上。这件事在低预算场景里尤其重要。因为当总高斯数量有限时，“怎么分配” 比 “总量多少” 更关键。论文实验里也显示，这种空间智能密度控制带来的收益，在少数量高斯的区间尤其明显。换句话说，预算越紧，这种方法越体现价值。

再进一步看，这种能力对于很多场景都很关键：

对游戏和 XR 来说，它意味着同一个生成模型更容易适配不同设备等级和实时性能约束。

对 3D 内容平台来说，它意味着资产可以更自然地提供多种质量档位，而不是为每个档位单独制作，实现类似 LoD 的效果。

对 AIGC 工作流来说，它意味着生成系统不只是 “给一个结果”，而是给出一个更可调、更可部署的表示。

对机器人仿真、数字孪生和交互式 AI 环境来说，它则意味着有限资源可以优先用在真正影响几何感知和渲染质量的部分。

论文里也给出了很有代表性的结果。作为一种单图到 3D 的生成框架，DeG 在重建和生成上都取得了很强的表现。在接近的高斯预算下，它相比 TRELLIS、UniLat3D 等代表性方法取得了更好的视觉质量；而如果只看 “达到相近视觉质量要用多少高斯”，DeG 能显著减少所需高斯数量。论文中还提到，在某些场景下，它达到与 TRELLIS 相当的视觉质量时，所需高斯数量不到后者的一半。

主题：3D高斯|3D表示