登录

突破三维感知瓶颈:魔芯科技发布VGGT系列成果,实现动态高保真重建并获新一轮融资


速读:突破三维感知瓶颈:魔芯科技发布VGGT系列成果,实现动态高保真重建并获新一轮融资2026年05月14日12:10机器之心Pro机器之心发布。
2026年05月14日 12:1

机器之心发布

在迈向通用人工智能(AGI)的过程中,世界模型被视为让机器理解物理规律、实现空间智能的关键。而高效、鲁棒和精准的三维感知能力,被广泛认为是世界模型的首要前提。通常来说,一个成熟的世界模型需要具备三大核心能力:对长时空序列的持续记忆、对复杂动力学的因果解耦、以及对高清物理细节的精细感知。近期,魔芯科技(KOKONI 3D)联合同济大学(祝澜耘教授团队)等多个科研团队,基于视觉几何 Transformer(VGGT)架构连续发布四项成果。该系列工作系统性地突破了三维感知在流式处理、动态鲁棒性和精细感知上的瓶颈,实现了从基础图像重建到高保真 4D 世界模型的跨越。

一、三维感知的核心约束:长时序、强动态与高精度的系统性瓶颈

在真实工业级场景中,三维感知模型面临的挑战不仅在于精度本身。当输入分辨率提升、场景引入动态变化、数据形式扩展为视频流时,传统架构的算力、算法与内存资源将同时承压。具体而言,存在三大核心难题:

1.  无限序列与有限 内存的 冲突 : 现有的流式重建方法在处理长视频流输入时,模型的 KV 缓存会随输入帧数呈线性增长,随着时间推移而引发显存溢出。这意味着,即便单帧重建精度再高,模型也无法在有限显存下完成对无限长序列的持续推理,长视频理解的 “记忆瓶颈” 由此形成。

2.  动与静的纠缠 : 在动态场景中,移动的物体会对相机位姿估计产生严重干扰。传统模型难以区分 “相机自身的运动” 与 “场景中物体的独立运动”,导致两套运动信号相互污染。其后果是,静态背景被错误地扭曲变形,动态物体的结构出现坍塌或 “鬼影”,整个重建结果的几何一致性被彻底破坏。

3.  算力与精度的矛盾 :高分辨率特征承载着丰富的物理细节(如细薄结构、纹理边缘),但特征维度的提升会引发 Token 数量的显著增长。当模型致力于捕获更精细的几何表征时,显存占用迅速攀升直至溢出。这使得模型在精度追求与算力约束之间面临两难:若降低特征分辨率则细节丢失,若维持高分辨表达则显存难以为继。

主题:模型|三维感知|世界模型