登录

看完智平方创始人郭彦东的这场演讲,我对VLA又有信心了


速读:要判断一个技术范式是否过时,首先需要回到第一性原理:它解决的核心问题是什么? 当前所谓“VLA时代终结”的论调,混淆了两个层面的问题:一是VLA作为一个技术范式的存续,二是具体架构形式的迭代。 实际上,VLA从来不是一个固化的技术方案。 先是宇树科技创始人王兴兴公开表示,世界模型是更有希望的技术路线; 所谓“世界模型取代VLA”的说法,在技术逻辑上说不通——世界模型解决的是预测和泛化问题,它本身并不直接输出动作,也不直接处理视觉输入,它需要嵌入到端到端的感知-推理-执行闭环中才能发挥作用。
2026年05月11日 14:

VLA没有终结,反而在持续变强。

    作者丨高景辉

    编辑丨马晓宁

2026 年的具身智能赛道,正陷入一场关于技术路线的激烈争论。

先是宇树科技创始人王兴兴公开表示,世界模型是更有希望的技术路线;再是英伟达在 GTC 大会上发布 GR00T N1,将世界模型作为通用人形机器人基础模型的核心架构。一时间,世界模型成为行业最热的关键词。

与之相对的,是 “VLA 时代已经终结” 的论调在行业内快速扩散。大量从业者开始质疑,曾经被视为具身智能核心范式的 VLA模型,是否已经被新的技术浪潮抛下。

VLA 的时代真的过去了吗?在 2026 年 4 月的 FAIR plus 大会主论坛上,智平方创始人郭彦东用一场演讲直接回应了这场争论,他的判断很明确:VLA的时代远未终结,世界模型正在汇入 VLA 的河流,其中下一个关键变量则是类脑架构。

随着逐渐理解这一判断背后的内在逻辑,我对 VLA 路线的信心又一点一点地重建了起来。 随着逐渐理解这一判断背后的内在逻辑,我对 VLA 路线的信心又一点一点地重建了起来。 01

世界模型,终结不了 VLA

要判断一个技术范式是否过时,首先需要回到第一性原理:它解决的核心问题是什么?这些问题的解决方式是否已被根本性地颠覆?

VLA 即 Vision-Language-Action,视觉、语言、动作三个词定义了一个完整的闭环:机器人通过视觉感知环境,通过语言理解指令并进行推理,通过动作输出完成物理交互。从感知到理解到执行,这是一条不可拆解的链条。

郭彦东也在演讲中强调:“不管是Vision、Language、Action怎么组织,它的组织方式会有变化,但是需要三个核心的要素,这个范式是永远不会有变化的。”

这个判断有充分的技术逻辑支撑。具身智能完成一项任务,必须先知道环境里有什么(视觉感知),理解任务是什么(语言推理),再调动身体去执行(动作控制),这三个环节缺一不可。

你可以优化感知模块的分辨率,可以提升语言模型的推理能力,可以改进动作控制的精度——这些都属于“怎么组织”的问题。但你不能去掉感知模块,让机器人在黑暗中摸索;不能去掉推理模块,让机器人机械地重复固定程序;更不能去掉动作模块,因为不与物理世界交互,就不存在具身智能。

当前所谓“VLA时代终结”的论调,混淆了两个层面的问题:一是 VLA 作为一个技术范式的存续,二是具体架构形式的迭代。前者关乎具身智能的本质需求,后者只是实现路径的选择问题。

Gartner技术成熟度曲线告诉我们,一项技术从过高期望的峰值滑落后,往往被舆论判定为“失败”,但这个阶段恰恰是技术与实际场景深度磨合的关键期,真正的生产力突破往往在此发生。

VLA 便处于这一阶段,其当前面临的争议,更像是在从实验室原型迈向工业级落地的过程中,技术边界被清晰认知后的必要调整。

实际上,VLA 从来不是一个固化的技术方案。它从诞生之初就在不断吸纳新的方法论。从最早的对齐式VLA,到快慢学习VLA,再到当前将世界模型融入 VLA 的探索,技术架构一直在演进。把 VLA 等同于某一个历史版本的实现方式,是对这个范式的误读。

那么,世界模型在这场演进中扮演什么角色?

郭彦东在演讲中做了一个关键区分:“把世界模型用来增强 VLA,和把世界模型融入 VLA,是不同的两个范式。我们认为把世界模型融入到VLA里面,让 VLA 具备更强的泛化能力,是VLA变得更强的必由之路。”

这个区分的实质在于:世界模型是作为一种外部工具来辅助 VLA,还是成为 VLA 架构内部的一个有机组成部分?前者是松耦合,可以随时替换;后者是紧耦合,改变了 VLA 的感知与推理方式。

世界模型的核心价值在于让机器人生成对物理世界的预测能力。传统 VLA 的瓶颈之一是:模型虽然能理解“把杯子放到桌子上”这条指令,但对“杯子被碰倒后会滚动”“松手后物体会下落”这类物理常识缺乏内在判断。当环境出现预期之外的变化时,模型容易做出错误动作。

融入世界模型后,VLA 可以内生地形成对物理规律的理解。它不再被动地映射“感知→动作”的对应关系,而是能够预测动作的后果,在行动之前进行模拟推演。这补齐了传统 VLA 在物理预测和泛化适配上的短板。

这块短板恰恰是制约VLA从实验室走向真实场景的关键障碍。真实物理世界充满不确定性——光照变化、物体位置偏移、外力干扰——模型如果只靠大量标注数据来覆盖所有情况,泛化天花板很快就会触达。世界模型提供了另一种路径:让模型理解底层物理规律,从而在未见过的场景中也能做出合理动作。

从这个角度看,世界模型是VLA架构的重要升级模块,而非独立于 VLA 之外的新赛道。所谓“世界模型取代VLA”的说法,在技术逻辑上说不通——世界模型解决的是预测和泛化问题,它本身并不直接输出动作,也不直接处理视觉输入,它需要嵌入到端到端的感知-推理-执行闭环中才能发挥作用。

总而言之,每一代迭代,VLA都在解决上一代在真实物理世界中暴露的核心痛点:泛化能力不足、动作稳定性差、时空感知鲁棒性弱。它从来不是一个固化的技术方案,而是一个持续吸收新技术、不断进化的开放范式。

主题:感知|世界模型|技术|终结|具身智能|郭彦东|让机器人