CVPR 2026|LLM会写3 D视觉代码吗?清华联合智源用GeoCodeBench给出答案
如果把一篇最新的 3D 几何视觉论文、一个挖空关键函数的代码模板,一起交给大模型,它能否像真正的研究者一样,把论文里的几何推导和算法逻辑准确写成可执行代码,并通过一套严格的单元测试?
GeoCodeBench 给出的答案并不乐观。
图 1: 主流 LLM 在 GeoCodeBench 上的通过率 近日,来自 清华大学智能产业研究院(AIR)的团队联合北京智源研究院(BAAI)、北京大学、南京大学 等机构构建了一个基准: GeoCodeBench。
这是一个面向 3D 几何计算机视觉的 PhD 级 coding benchmark,团队从 2025 年 CV 顶会论文和官方仓库中构建任务,最终形成了 47 个仓库、100 个问题实例,专门评测大语言模型是否真的能「读懂论文、理解几何并写出正确代码」。
在论文原始评测中,研究团队测试了 8 个代表性开源和闭源模型。结果显示, 即便是当时表现最强的 GPT-5,整体通过率也只有 36.6%。
随着模型能力快速迭代,GeoCodeBench 也在持续更新。根据最新 leaderboard,团队进一步评测了 Claude Opus 4.7、Gemini 3.1 Pro 和 GPT-5.5 等新一代前沿模型。其中, Claude Opus 4.7 取得 49.4% 的整体通过率,位列第一。
图 2: GeoCodeBench 主页最新 Leaderboard
论文标题:Benchmarking PhD-Level Coding in 3D Geometric Computer Vision
项目主页: https://geocodebench.github.io/
论文链接:https://arxiv.org/abs/2603.30038
代码仓库:https://github.com/geocodebench/GeoCodeBench
为什么要做这样一个 benchmark?
过去几年,AI coding 已经在通用软件工程中取得显著进展,但 3D 几何视觉并不是普通的软件开发问题。
它要求模型同时具备对几何变换、光学与力学公式、多视图与多模态流程,以及 paper-specific 模块逻辑的精确理解。
具体来说,它不仅要 懂坐标变换、投影、法线、交点、优化等基础几何算子, 解析 光学、物理约束和渲染公式, 更难的是,还要把论文中的 新方法、隐含约定和边界条件真正翻译成代码。
如果模型能够稳定完成这些任务,它将不仅仅是一个「写代码助手」,而可能成为真正意义上的 3D 视觉研究助手:帮助研究者自动原型化模型、加速研究迭代,甚至降低 3D 算法开发的门槛。
这项工作最值得强调的三点贡献
1. 首个面向 3D 几何视觉 PhD 级 coding 的执行式 benchmark
它不是泛泛的代码题库,而是明确面向 3D geometric computer vision,强调 paper-to-code 与研究级实现能力。
表 1: 代表性基准测试与 GeoCodeBench 的能力覆盖范围对比 2. 自动化构建 + 专家在环 + 高覆盖单测
在构建过程中,团队并没有简单依赖自动抽取,而是引入了 3D 视觉研究专家进行人工筛选,确保留下的都是最能代表核心几何和算法逻辑的函数。
同时,每道题目都配备了高覆盖、包含 edge cases 的单元测试,用来保证 benchmark 的可执行性和判分可靠性。
3. 首次揭示大模型的关键短板:会做 3D 几何题,不等于会写 3D 论文代码
GeoCodeBench 最有价值的一点,不只是提供了一个新 benchmark,而是清楚揭示了当前大模型在 3D 视觉研究编程中的核心短板:它们可能懂几何,但还不会稳定地把论文方法写成能通过测试的正确代码。
实验显示,模型在通用 3D 几何知识题上往往还能取得相对不错的表现,但面对需要严格遵循论文设定的研究级实现任务时,成功率明显下滑。
Benchmark 构建方法
和常见的代码 benchmark 不同,GeoCodeBench 不是手工出几道 3D 编程题,而是直接从 真实论文和官方代码仓库里「抽题」。
研究团队首先选取了 2025 年顶会的 3D 视觉论文及其对应开源仓库,最终构建出 47 个仓库、100 个问题实例。这些题目不是任务,而是真实研究 pipeline 中的关键函数。
为了让模型能够理解论文内容,团队先用 OCR 工具把 PDF 中的文本、公式和图像抽取出来,并整理成结构化输入;与此同时,再从代码仓库里自动挖掘候选函数。随后,研究者对这些候选函数进行人工筛选,只保留最能代表核心几何和算法逻辑的实现,并把函数体挖空,构造成 fill-in-the-function 任务。