CVPR 2026｜LLM会写3 D视觉代码吗？清华联合智源用GeoCodeBench给出答案

速读：代码仓库：https:。 GeoCodeBench最有价值的一点，不只是提供了一个新benchmark，而是清楚揭示了当前大模型在3D视觉研究编程中的核心短板：它们可能懂几何，但还不会稳定地把论文方法写成能通过测试的正确代码。

2026年06月06日 14:3

如果把一篇最新的 3D 几何视觉论文、一个挖空关键函数的代码模板，一起交给大模型，它能否像真正的研究者一样，把论文里的几何推导和算法逻辑准确写成可执行代码，并通过一套严格的单元测试？

GeoCodeBench 给出的答案并不乐观。

图 1: 主流 LLM 在 GeoCodeBench 上的通过率近日，来自清华大学智能产业研究院（AIR）的团队联合北京智源研究院（BAAI）、北京大学、南京大学等机构构建了一个基准： GeoCodeBench。

这是一个面向 3D 几何计算机视觉的 PhD 级 coding benchmark，团队从 2025 年 CV 顶会论文和官方仓库中构建任务，最终形成了 47 个仓库、100 个问题实例，专门评测大语言模型是否真的能「读懂论文、理解几何并写出正确代码」。

在论文原始评测中，研究团队测试了 8 个代表性开源和闭源模型。结果显示，即便是当时表现最强的 GPT-5，整体通过率也只有 36.6%。

随着模型能力快速迭代，GeoCodeBench 也在持续更新。根据最新 leaderboard，团队进一步评测了 Claude Opus 4.7、Gemini 3.1 Pro 和 GPT-5.5 等新一代前沿模型。其中， Claude Opus 4.7 取得 49.4% 的整体通过率，位列第一。

图 2: GeoCodeBench 主页最新 Leaderboard 图 2: GeoCodeBench 主页最新 Leaderboard 论文标题：Benchmarking PhD-Level Coding in 3D Geometric Computer Vision

项目主页： https://geocodebench.github.io/

论文链接：https://arxiv.org/abs/2603.30038

代码仓库：https://github.com/geocodebench/GeoCodeBench

为什么要做这样一个 benchmark？

过去几年，AI coding 已经在通用软件工程中取得显著进展，但 3D 几何视觉并不是普通的软件开发问题。

它要求模型同时具备对几何变换、光学与力学公式、多视图与多模态流程，以及 paper-specific 模块逻辑的精确理解。

具体来说，它不仅要懂坐标变换、投影、法线、交点、优化等基础几何算子，解析光学、物理约束和渲染公式，更难的是，还要把论文中的新方法、隐含约定和边界条件真正翻译成代码。

如果模型能够稳定完成这些任务，它将不仅仅是一个「写代码助手」，而可能成为真正意义上的 3D 视觉研究助手：帮助研究者自动原型化模型、加速研究迭代，甚至降低 3D 算法开发的门槛。

这项工作最值得强调的三点贡献

1. 首个面向 3D 几何视觉 PhD 级 coding 的执行式 benchmark

它不是泛泛的代码题库，而是明确面向 3D geometric computer vision，强调 paper-to-code 与研究级实现能力。

表 1: 代表性基准测试与 GeoCodeBench 的能力覆盖范围对比 2. 自动化构建 + 专家在环 + 高覆盖单测

在构建过程中，团队并没有简单依赖自动抽取，而是引入了 3D 视觉研究专家进行人工筛选，确保留下的都是最能代表核心几何和算法逻辑的函数。

同时，每道题目都配备了高覆盖、包含 edge cases 的单元测试，用来保证 benchmark 的可执行性和判分可靠性。

3. 首次揭示大模型的关键短板：会做 3D 几何题，不等于会写 3D 论文代码

GeoCodeBench 最有价值的一点，不只是提供了一个新 benchmark，而是清楚揭示了当前大模型在 3D 视觉研究编程中的核心短板：它们可能懂几何，但还不会稳定地把论文方法写成能通过测试的正确代码。

实验显示，模型在通用 3D 几何知识题上往往还能取得相对不错的表现，但面对需要严格遵循论文设定的研究级实现任务时，成功率明显下滑。

Benchmark 构建方法

和常见的代码 benchmark 不同，GeoCodeBench 不是手工出几道 3D 编程题，而是直接从真实论文和官方代码仓库里「抽题」。

研究团队首先选取了 2025 年顶会的 3D 视觉论文及其对应开源仓库，最终构建出 47 个仓库、100 个问题实例。这些题目不是任务，而是真实研究 pipeline 中的关键函数。

为了让模型能够理解论文内容，团队先用 OCR 工具把 PDF 中的文本、公式和图像抽取出来，并整理成结构化输入；与此同时，再从代码仓库里自动挖掘候选函数。随后，研究者对这些候选函数进行人工筛选，只保留最能代表核心几何和算法逻辑的实现，并把函数体挖空，构造成 fill-in-the-function 任务。

主题：模型|团队|整体通过率