看完智平方创始人郭彦东的这场演讲，我对VLA又有信心了

速读：要判断一个技术范式是否过时，首先需要回到第一性原理：它解决的核心问题是什么？当前所谓“VLA时代终结”的论调，混淆了两个层面的问题：一是VLA作为一个技术范式的存续，二是具体架构形式的迭代。实际上，VLA从来不是一个固化的技术方案。先是宇树科技创始人王兴兴公开表示，世界模型是更有希望的技术路线；所谓“世界模型取代VLA”的说法，在技术逻辑上说不通——世界模型解决的是预测和泛化问题，它本身并不直接输出动作，也不直接处理视觉输入，它需要嵌入到端到端的感知-推理-执行闭环中才能发挥作用。

2026年05月11日 14:

VLA没有终结，反而在持续变强。

作者丨高景辉

编辑丨马晓宁

2026 年的具身智能赛道，正陷入一场关于技术路线的激烈争论。

先是宇树科技创始人王兴兴公开表示，世界模型是更有希望的技术路线；再是英伟达在 GTC 大会上发布 GR00T N1，将世界模型作为通用人形机器人基础模型的核心架构。一时间，世界模型成为行业最热的关键词。

与之相对的，是 “VLA 时代已经终结” 的论调在行业内快速扩散。大量从业者开始质疑，曾经被视为具身智能核心范式的 VLA模型，是否已经被新的技术浪潮抛下。

VLA 的时代真的过去了吗？在 2026 年 4 月的 FAIR plus 大会主论坛上，智平方创始人郭彦东用一场演讲直接回应了这场争论，他的判断很明确：VLA的时代远未终结，世界模型正在汇入 VLA 的河流，其中下一个关键变量则是类脑架构。

随着逐渐理解这一判断背后的内在逻辑，我对 VLA 路线的信心又一点一点地重建了起来。 01

世界模型，终结不了 VLA

要判断一个技术范式是否过时，首先需要回到第一性原理：它解决的核心问题是什么？这些问题的解决方式是否已被根本性地颠覆？

VLA 即 Vision-Language-Action，视觉、语言、动作三个词定义了一个完整的闭环：机器人通过视觉感知环境，通过语言理解指令并进行推理，通过动作输出完成物理交互。从感知到理解到执行，这是一条不可拆解的链条。

郭彦东也在演讲中强调：“不管是Vision、Language、Action怎么组织，它的组织方式会有变化，但是需要三个核心的要素，这个范式是永远不会有变化的。”

这个判断有充分的技术逻辑支撑。具身智能完成一项任务，必须先知道环境里有什么（视觉感知），理解任务是什么（语言推理），再调动身体去执行（动作控制），这三个环节缺一不可。

你可以优化感知模块的分辨率，可以提升语言模型的推理能力，可以改进动作控制的精度——这些都属于“怎么组织”的问题。但你不能去掉感知模块，让机器人在黑暗中摸索；不能去掉推理模块，让机器人机械地重复固定程序；更不能去掉动作模块，因为不与物理世界交互，就不存在具身智能。

当前所谓“VLA时代终结”的论调，混淆了两个层面的问题：一是 VLA 作为一个技术范式的存续，二是具体架构形式的迭代。前者关乎具身智能的本质需求，后者只是实现路径的选择问题。

Gartner技术成熟度曲线告诉我们，一项技术从过高期望的峰值滑落后，往往被舆论判定为“失败”，但这个阶段恰恰是技术与实际场景深度磨合的关键期，真正的生产力突破往往在此发生。

VLA 便处于这一阶段，其当前面临的争议，更像是在从实验室原型迈向工业级落地的过程中，技术边界被清晰认知后的必要调整。

实际上，VLA 从来不是一个固化的技术方案。它从诞生之初就在不断吸纳新的方法论。从最早的对齐式VLA，到快慢学习VLA，再到当前将世界模型融入 VLA 的探索，技术架构一直在演进。把 VLA 等同于某一个历史版本的实现方式，是对这个范式的误读。

那么，世界模型在这场演进中扮演什么角色？

郭彦东在演讲中做了一个关键区分：“把世界模型用来增强 VLA，和把世界模型融入 VLA，是不同的两个范式。我们认为把世界模型融入到VLA里面，让 VLA 具备更强的泛化能力，是VLA变得更强的必由之路。”

这个区分的实质在于：世界模型是作为一种外部工具来辅助 VLA，还是成为 VLA 架构内部的一个有机组成部分？前者是松耦合，可以随时替换；后者是紧耦合，改变了 VLA 的感知与推理方式。

世界模型的核心价值在于让机器人生成对物理世界的预测能力。传统 VLA 的瓶颈之一是：模型虽然能理解“把杯子放到桌子上”这条指令，但对“杯子被碰倒后会滚动”“松手后物体会下落”这类物理常识缺乏内在判断。当环境出现预期之外的变化时，模型容易做出错误动作。

融入世界模型后，VLA 可以内生地形成对物理规律的理解。它不再被动地映射“感知→动作”的对应关系，而是能够预测动作的后果，在行动之前进行模拟推演。这补齐了传统 VLA 在物理预测和泛化适配上的短板。

这块短板恰恰是制约VLA从实验室走向真实场景的关键障碍。真实物理世界充满不确定性——光照变化、物体位置偏移、外力干扰——模型如果只靠大量标注数据来覆盖所有情况，泛化天花板很快就会触达。世界模型提供了另一种路径：让模型理解底层物理规律，从而在未见过的场景中也能做出合理动作。

从这个角度看，世界模型是VLA架构的重要升级模块，而非独立于 VLA 之外的新赛道。所谓“世界模型取代VLA”的说法，在技术逻辑上说不通——世界模型解决的是预测和泛化问题，它本身并不直接输出动作，也不直接处理视觉输入，它需要嵌入到端到端的感知-推理-执行闭环中才能发挥作用。

总而言之，每一代迭代，VLA都在解决上一代在真实物理世界中暴露的核心痛点：泛化能力不足、动作稳定性差、时空感知鲁棒性弱。它从来不是一个固化的技术方案，而是一个持续吸收新技术、不断进化的开放范式。

主题：感知|世界模型|技术|终结|具身智能|郭彦东|让机器人