三维视觉

2）像素空间归一化，就能够以令人惊叹的简洁方式有效学会各类三维视觉模型，在1）单目深度估计中matchUniDepthV2及MoGe2；

文章

的成功也意味着三维视觉的学习远比我们想象中的要容易：除开不需要特殊架构、损失函数等，我们甚至可以不依赖回归（regression）来学会fine-grained3Dunderstanding，这在之前的工作中是难以想象的，因为在连续的输出空间进行回归是绝大多数三维视觉模型的核心设计。

文章

然而，尽管在语义理解、视觉问答、图像指令等任务上表现优异，它们在三维视觉方面仍然表现不佳。

文章

VLM³，首次揭示了三维视觉学习的BitterLesson：标准的视觉语言模型+scale数据就是最简单有效的范式，针对特定任务的架构、损失函数以及数据增强的设计，甚至是regression的formulation，均不是三维视觉学习的必要条件。

文章

这就带来了一个核心问题：「视觉语言模型是否在三维视觉学习方面无法替代专家模型？

文章

这种简洁的训练推翻了之前三维视觉的学习范式，并揭示了三维视觉的BitterLesson：我们其实完全不需要针对特定三维视觉任务人为设计复杂的架构、损失函数及数据增强。

文章

在四大三维视觉任务上性能显著优于最先进的VLM

文章

在此之前，即便是最先进的VLM在标准的三维视觉任务中均远远落后于专家视觉模型。

文章

通过极简的设计，在极为多样的三维视觉任务中媲美或超越专家视觉模型，并大幅超越最先进的视觉语言模型：1）在单目深度估计上matchUnidepthV2及MoGe2；

文章

通过简单的视觉语言建模+scale数据就能够达到同样的效果，并且于其他非三维视觉任务在统一的语言模型训练框架下完全兼容。

文章