DeepSeek公开新技术了！多模态模型技术报告公布：超越GPT

DeepSeek公开新技术了！多模态模型技术报告公布：超越GPT-5.4

2026年05月01日 07:47

快科技5月1日消息， DeepSeek在GitHub上发布了多模态推理模型及技术报告，题为《Thinking with Visual Primitives（以视觉原语思考）》。

该模型基于DeepSeek V4-Flash（284B总参数、推理时激活13B的MoE架构）构建，提出了一种全新的多模态推理范式。

论文指出现有多模态大模型存在一个被忽视的根本性瓶颈：“指代鸿沟”（Reference Gap），即模型能够“看见”图片内容，但在推理过程中用自然语言构建思维链时，左边那个大的、靠近中央的红色物体这类模糊描述在密集场景中无法精确定位视觉对象，导致注意力漂移并得出错误结论。

此前学界的主流应对方向是提升感知分辨率，但论文认为看见和能说清楚在说哪个是两件不同的事。

该模型的核心创新在于将点坐标和边界框嵌入推理过程本身，使其成为思维链的基本单元。模型在推理时每提到一个视觉对象就同步输出其坐标。

例如“找到一只熊[452,23,804,411]，正在爬树，排除，再往左下看，找到另一只[50,447,647,771]，站在岩石边缘，符合条件。”坐标不再是事后标注的答案，而是推理过程中消除歧义的空间锚点。