对话肖特特：从伯克利到PromptAI创业，发明创造下一代视觉智能

速读：特特：“发明创造”一定是技术驱动，但技术驱动的东西不一定是“发明创造”。来自加州大学伯克利人工智能实验室(BAIR)的肖特特博士是该项工作的主要参与者之一。还没有一套统一的算法来解决计算机对空间信息的理解。特特是2021年OpenAI的CLIP工作（《LearningTransferableVisualModelsFromNaturalLanguageSupervision》）。

2024年12月16日 10:36

AI Pioneers 专栏投稿

作者：BV百度风投 Han、轲迪

通用语言模型率先起跑，但通用视觉模型似乎迟到了一步。

究其原因，语言中蕴含大量序列信息，能做更深入的推理；而视觉模型的输入内容更加多元、复杂，输出的任务要求多种多样，需要对物体在时间、空间上的连续性有完善的感知，传统的学习方法数据量大、经济属性上也不理性...... 还没有一套统一的算法来解决计算机对空间信息的理解。

2023 年，Meta AI 发布了首个 " Segment Anything Model" (SAM) ，该模型无需专门的类别标注，而是通过交互的方式对真实世界中动态的任意物体进行分割。其分割方法通用，可对不熟悉的物体和图像进行零样本泛化，体现了对空间信息的处理和理解能力。这项工作获得了 ICCV 2023 Best Paper Honorable Mention。

来自加州大学伯克利人工智能实验室 (BAIR) 的肖特特博士是该项工作的主要参与者之一。他评价说：“以往我们通过增加类别来提升模型效果，但 SAM 放弃了旧时代的很多枷锁，放弃了特定的类别标注的方式，提升了模型对空间的理解能力。”

这为 CV 新时代打开了一道门。

而不同于上一代视觉智能，新时代下产生的空间智能最大的场景体现在具身智能的应用上，它让机器人、自动驾驶、无人机等硬件设备拥有像人类的眼睛一样，感知世界，并产生与世界互动的行动力。

这就是 “看见不只是看见，更是理解到行动” 的智能产生链条。

肖特特于 2015 年以优异成绩（summa cum laude）获得了北京大学智能科学专业的理学学士学位，后于 2019 年在加州大学伯克利分校计算机科学系获得博士学位，并曾在 Facebook AI 研究院从事研究工作。作为年轻一代人工智能学者的代表样本，他的多篇重要工作发表在包括《Science Robotics》、CVPR、ICCV、ECCV 和 NeurIPS 等主要期刊和会议上。

他认为，未来 5-10 年 CV 要解决的是真实世界的问题，让 AI 有人类一样对物理空间的感知能力。

2023 年，特特没有继续留在 Meta，而是选择了人生新路径，成立 PromptAI，致力于打造通用视觉智能平台，为机器赋予类人的视觉感知能力。

成立一年时间，PromptAI 获得来自 UC Bekerley Pieter Abbeel 的投资与 Trevor Darrell 的技术支持。两位教授同为伯克利人工智能实验室（BAIR）联合主任，Trevor Darrell 教授在计算机视觉领域极大推动了大规模感知的创新研究，而 Pieter Abbeel 教授是深度强化学习应用于机器人领域的先驱人物。

公司其他成员都是十分年轻的 AI 研究员与工程师，在算法架构、产品运营、工程管理上拥有杰出经验。

而追问 What's next 的精神，是 PromptAI 这群年轻的 AI 科学家找到问题答案的关键。

永远在提问 What’s next？

BV：PromptAI 在解决什么问题？

特特：发明创造跟人一样有感知能力的空间智能模型，让机器和算法成为人类额外的眼睛。

BV：为什么是 “发明创造”？很少听到这个词。

特特： “发明创造” 一定是技术驱动，但技术驱动的东西不一定是 “发明创造”。举个例子，在互联网时代，我们可以用已有的互联网技术来降本增效，这中间产生很多行业机会。这受到新技术的驱动，但并不是 “发明创造”。

而目前在计算机视觉领域，新的方式还没有出现，我们希望发明创造下一代视觉技术，并定义新的人与机器交互的方式。

图片来源：公司官网 BV：是什么时候产生创业想法的？

特特：我们看到了 AI 给人类社会带来的这个机会：人类能看到的东西，计算机也能看到。计算机能把人类从繁琐无聊的工作、任务中解脱出来，拥有更多的时间和自由去做更喜欢、更擅长的事情。

我觉得 AI 在成熟，它可以变成我们额外的眼睛帮助我们更高效、更快乐地生活。这是我们创业开始时，在社会应用上的 insights，当然，除此之外还有技术变革上的 insights。

BV：那技术上推动你创业的原因是什么？

特特：在 PhD 后期，看到视觉领域从 MAE（注：《Masked Autoencoders》，这项工作来自 Meta AI，采用无监督学习的方式，提高模型的泛化能力和鲁棒性。）到 SAM（注：《Segment Anything Model》）的变化，用通用视觉模型去解决大量不同问题是可行的。谷歌的前 CEO 埃里克・施密特在《How Google Works》中，就曾强调技术洞见的重要性，这是产品开发和公司成长的源动力。

带着应用和技术上的想法，我找到我在 UC Bekerley 的导师 Trevor Darrell 教授聊，他很认可也很支持。后来又吸纳了更多团队成员，大家都共享一个理念：新一代视觉技术的应用机会以及由此产生的空间智能对人类社会的价值。

BV：是什么驱使你想到这种新范式？

特特：往回看，研究者总是在问：What’s next？这是个非常自然而发的问题。

What’s next 问的内容有很多种，一种是目前现有的技术能解决哪些任务，带来哪些能力上的提升。比如视觉分类研究中，现在能做到准确率 95%，我能不能推到 97%？推到 99%？

而另一种是，下一代技术是什么样子？我们利用下一代技术能够做什么事情？比如对数据集来说，原来只能看到 20 类物体，后来 80 类，后来 200 类，再往后，能否看到他们其他维度的特性？看到材质、结构、组成部分？因为很难定义类别，能否干脆用自然语言描述物体？这是在研究中水到渠成会思考到的问题。

这两种问题一定是交织进行、同时发生的。当前技术的深挖是很有必要的，不然很难看到他的影响力的扩散。但有时候这个技术不一定是最优解，这个时候就需要我们跳出来，去问问有没有新的解决方案。

而通用视觉模型，就是面对 CV1.0 时代中的各种问题而提出的新的解决方案。

肖特特参加 2024 智源大会，分享《A Real-World Approach to Intelligence》 BV：这种 What’s next 既可以问是否加速了过去的应用，也可以问是否创造了新的范式。

特特：是的。伟大的公司都想要知道 “what's next”，比如 Google 用了新的技术方式去管理世界上五花八门的知识；Apple 创造了新的人与计算机交互的方式，让个人电脑走进我们的生活里；英伟达实现了加速计算，用新的硬件形态去解决计算领域的问题。

在研究和创业中，一旦停下对未来技术的追问，做的事情就会变得平庸，囿于目前已经掌握到的技术，只解决眼前有限的问题，而无法找到下一代技术，解决更多问题。

这种追问的精神，就是我们的团队信仰。

CV 变革，智能产生：1.0-2.0

BV：什么是 CV1.0 ？解决了哪些任务？

特特： CV1.0 解决专一的、特定的任务，它在经济属性上并不是很理性。

2012 年出现 AlexNet，这个机器学习范式，对图片识别的能力大大超过了其它技术路线，可以用在自然语言处理、推荐系统、计算机视觉等多个方向上，瞬间激发了 AI 的应用价值。互联网产品可以利用这种范式来学习图片、视频当中的特质，来更好地提升用户体验；医疗上会利用机器学习来做诊断；工厂里可以做各种质量检测；城市管理当中还可以分析人的轨迹、流向。

但这些任务之间不能互通，比如说，A 工厂生产手机屏幕，需要一套针对划痕检测这个单一任务的视觉系统；而 B 工厂生产汽车，也需要一套检测划痕的视觉系统。但此划痕非彼划痕，这是两套完全不一样的检测系统。

总结下来，我们一直在解决同一个问题，就是感知。这个大问题在应用中会被细分为无数细分问题，比如检测材质、大小、位置、组成部分等等。在 CV1.0 时代，这些问题非常细，并且每个场景对智能的需求是有限的，我们解决了一个子问题，却没有能力解决另一个子问题。回到划痕检测问题，就算有一个模型能够识别世界上所有的划痕，但你却识别不了世界上所有的杯子。如此以往，这个模型就非常的单一、不完善，实现难度也很大，经济投入也会很多。

BV：这种方法跟人类感知物体的方式是不一样的。这是不是也回答了：为什么过去的 CV 技术没有出现很多解决通用行业问题的产品？

特特：是的。

另外，CV1.0 与人类智能相比，“数据输入” 的模式也并不相通。打个比方，对 CV1.0 来说，需要标注很多数据，让计算机知道这个杯子是不锈钢的，另一个是玻璃的。如果我再加一类塑料杯，那就又要标注成千上万的这类数据。

但是回过头想，难道我真的需要 “见到” 成千上万的玻璃杯，才能知道这个是玻璃杯吗？人类并不是这样做判断的，我们用过玻璃杯，或者是见过玻璃制品，在不需要众多 “数据输入” 的情况下就可以推断出来。

BV：正因为这样，我们需要大模型的能力。

特特：大模型的目的不是把模型做大，价值并不在于加参数。回到刚才识别三种杯子的例子，你可以做出一个上亿级参数的模型来完成这个任务，但仍存在无法解决更多任务的瓶颈。

Foundation Model 和 Pre-training 的好处是，把不同的信息源都学习进来，我们可能并不知道模型从哪里学到的关于 “玻璃” 的概念，但当它习得这个概念之后，会把这个概念抽象出来，并且能把这个知识运用到未来的预测和感知当中。这个是大模型和过去的技术不一样的地方。

BV：CV 2.0 有哪些不同？

特特：区别在于，第一是让 AI 具备和人一样感知世界的智能，解决真实世界的问题；第二是解决开放世界中通用任务问题；第三是具有人的常识能力。

BV：从 CV1.0 到 2.0 的分水岭有哪些？

特特：第一个关键节点，是 2021 年 OpenAI 的 CLIP 工作（《Learning Transferable Visual Models From Natural Language Supervision》），它讲的是如何 “以语言作为监督” 学习视觉信息。过去，如果我们用预定类别的方式来做识别，这个过程跟语言是没有关系的。而这篇工作提到，不同的概念在语义上有相关性，我们可以从人类的语言中获得这种相关性。思路就是，让模型去学习图片对应的描述，学习图片的视觉语义信息。

但这个 idea 即使在当时来看也并不新鲜，它独特性在于，用更大的数据量和计算量，用几百个 million 的数据来做训练，并且这些数据能很容易从互联网上获取。之所以有这个想法，是因为这项工作来自 OpenAI，当时已经开始做 GPT，他们看到了 scale 后模型的变化和影响，这彻底改变了我们对视觉和语言之间的认知。

再往后，2023 年 Meta AI 发布的 SAM（《Segment Anything Model》）相关工作也是这个转变过程中的 milestone。

主题：对空间信息