对话肖特特：从伯克利到PromptAI创业，发明创造下一代视觉智能

通用语言模型率先起跑，但通用视觉模型似乎迟到了一步。

究其原因，语言中蕴含大量序列信息，能做更深入的推理；而视觉模型的输入内容更加多元、复杂，输出的任务要求多种多样，需要对物体在时间、空间上的连续性有完善的感知，传统的学习方法数据量大、经济属性上也不理性...... 还没有一套统一的算法来解决计算机对空间信息的理解。

2023 年，Meta AI 发布了首个 "Segment Anything Model" (SAM)，该模型无需专门的类别标注，而是通过交互的方式对真实世界中动态的任意物体进行分割。其分割方法通用，可对不熟悉的物体和图像进行零样本泛化，体现了对空间信息的处理和理解能力。这项工作获得了 ICCV 2023 Best Paper Honorable Mention。

来自加州大学伯克利人工智能实验室 (BAIR) 的肖特特博士是该项工作的主要参与者之一。他评价说：“以往我们通过增加类别来提升模型效果，但 SAM 放弃了旧时代的很多枷锁，放弃了特定的类别标注的方式，提升了模型对空间的理解能力。”

这为 CV 新时代打开了一道门。

而不同于上一代视觉智能，新时代下产生的空间智能最大的场景体现在具身智能的应用上，它让机器人、自动驾驶、无人机等硬件设备拥有像人类的眼睛一样，感知世界，并产生与世界互动的行动力。

这就是 “看见不只是看见，更是理解到行动” 的智能产生链条。

肖特特于 2015 年以优异成绩（summa cum laude）获得了北京大学智能科学专业的理学学士学位，后于 2019 年在加州大学伯克利分校计算机科学系获得博士学位，并曾在 Facebook AI 研究院从事研究工作。作为年轻一代人工智能学者的代表样本，他的多篇重要工作发表在包括《Science Robotics》、CVPR、ICCV、ECCV 和 NeurIPS 等主要期刊和会议上。

他认为，未来 5-10 年 CV 要解决的是真实世界的问题，让 AI 有人类一样对物理空间的感知能力。

2023 年，特特没有继续留在 Meta，而是选择了人生新路径，成立 PromptAI，致力于打造通用视觉智能平台，为机器赋予类人的视觉感知能力。

成立一年时间，PromptAI 获得来自 UC Bekerley Pieter Abbeel 的投资与 Trevor Darrell 的技术支持。两位教授同为伯克利人工智能实验室（BAIR）联合主任，Trevor Darrell 教授在计算机视觉领域极大推动了大规模感知的创新研究，而 Pieter Abbeel 教授是深度强化学习应用于机器人领域的先驱人物。

公司其他成员都是十分年轻的 AI 研究员与工程师，在算法架构、产品运营、工程管理上拥有杰出经验。

而追问 What's next 的精神，是 PromptAI 这群年轻的 AI 科学家找到问题答案的关键。

永远在提问 What’s next？

BV：PromptAI 在解决什么问题？

特特：发明创造跟人一样有感知能力的空间智能模型，让机器和算法成为人类额外的眼睛。

BV：为什么是 “发明创造”？很少听到这个词。

特特：“发明创造” 一定是技术驱动，但技术驱动的东西不一定是 “发明创造”。举个例子，在互联网时代，我们可以用已有的互联网技术来降本增效，这中间产生很多行业机会。这受到新技术的驱动，但并不是 “发明创造”。

而目前在计算机视觉领域，新的方式还没有出现，我们希望发明创造下一代视觉技术，并定义新的人与机器交互的方式。

图片来源：公司官网

BV：是什么时候产生创业想法的？

特特：我们看到了 AI 给人类社会带来的这个机会：人类能看到的东西，计算机也能看到。计算机能把人类从繁琐无聊的工作、任务中解脱出来，拥有更多的时间和自由去做更喜欢、更擅长的事情。

我觉得 AI 在成熟，它可以变成我们额外的眼睛帮助我们更高效、更快乐地生活。这是我们创业开始时，在社会应用上的 insights，当然，除此之外还有技术变革上的 insights。

BV：那技术上推动你创业的原因是什么？

特特：在 PhD 后期，看到视觉领域从 MAE（注：《Masked Autoencoders》，这项工作来自 Meta AI，采用无监督学习的方式，提高模型的泛化能力和鲁棒性。）到 SAM（注：《Segment Anything Model》）的变化，用通用视觉模型去解决大量不同问题是可行的。谷歌的前 CEO 埃里克・施密特在《How Google Works》中，就曾强调技术洞见的重要性，这是产品开发和公司成长的源动力。

带着应用和技术上的想法，我找到我在 UC Bekerley 的导师 Trevor Darrell 教授聊，他很认可也很支持。后来又吸纳了更多团队成员，大家都共享一个理念：新一代视觉技术的应用机会以及由此产生的空间智能对人类社会的价值。

BV：是什么驱使你想到这种新范式？

特特：往回看，研究者总是在问：What’s next？这是个非常自然而发的问题。

What’s next 问的内容有很多种，一种是目前现有的技术能解决哪些任务，带来哪些能力上的提升。比如视觉分类研究中，现在能做到准确率 95%，我能不能推到 97%？推到 99%？

而另一种是，下一代技术是什么样子？我们利用下一代技术能够做什么事情？比如对数据集来说，原来只能看到 20 类物体，后来 80 类，后来 200 类，再往后，能否看到他们其他维度的特性？看到材质、结构、组成部分？因为很难定义类别，能否干脆用自然语言描述物体？这是在研究中水到渠成会思考到的问题。

这两种问题一定是交织进行、同时发生的。当前技术的深挖是很有必要的，不然很难看到他的影响力的扩散。但有时候这个技术不一定是最优解，这个时候就需要我们跳出来，去问问有没有新的解决方案。

而通用视觉模型，就是面对 CV1.0 时代中的各种问题而提出的新的解决方案。

肖特特参加 2024 智源大会，分享《A Real-World Approach to Intelligence》

BV：这种 What’s next 既可以问是否加速了过去的应用，也可以问是否创造了新的范式。

特特：是的。伟大的公司都想要知道 “what's next”，比如 Google 用了新的技术方式去管理世界上五花八门的知识；Apple 创造了新的人与计算机交互的方式，让个人电脑走进我们的生活里；英伟达实现了加速计算，用新的硬件形态去解决计算领域的问题。

在研究和创业中，一旦停下对未来技术的追问，做的事情就会变得平庸，囿于目前已经掌握到的技术，只解决眼前有限的问题，而无法找到下一代技术，解决更多问题。

这种追问的精神，就是我们的团队信仰。

CV 变革，智能产生：1.0-2.0

BV：什么是 CV1.0 ？解决了哪些任务？

特特：CV1.0 解决专一的、特定的任务，它在经济属性上并不是很理性。

2012 年出现 AlexNet，这个机器学习范式，对图片识别的能力大大超过了其它技术路线，可以用在自然语言处理、推荐系统、计算机视觉等多个方向上，瞬间激发了 AI 的应用价值。互联网产品可以利用这种范式来学习图片、视频当中的特质，来更好地提升用户体验；医疗上会利用机器学习来做诊断；工厂里可以做各种质量检测；城市管理当中还可以分析人的轨迹、流向。

但这些任务之间不能互通，比如说，A 工厂生产手机屏幕，需要一套针对划痕检测这个单一任务的视觉系统；而 B 工厂生产汽车，也需要一套检测划痕的视觉系统。但此划痕非彼划痕，这是两套完全不一样的检测系统。

总结下来，我们一直在解决同一个问题，就是感知。这个大问题在应用中会被细分为无数细分问题，比如检测材质、大小、位置、组成部分等等。在 CV1.0 时代，这些问题非常细，并且每个场景对智能的需求是有限的，我们解决了一个子问题，却没有能力解决另一个子问题。回到划痕检测问题，就算有一个模型能够识别世界上所有的划痕，但你却识别不了世界上所有的杯子。如此以往，这个模型就非常的单一、不完善，实现难度也很大，经济投入也会很多。

BV：这种方法跟人类感知物体的方式是不一样的。这是不是也回答了：为什么过去的 CV 技术没有出现很多解决通用行业问题的产品？

特特：是的。

另外，CV1.0 与人类智能相比，“数据输入” 的模式也并不相通。打个比方，对 CV1.0 来说，需要标注很多数据，让计算机知道这个杯子是不锈钢的，另一个是玻璃的。如果我再加一类塑料杯，那就又要标注成千上万的这类数据。

但是回过头想，难道我真的需要 “见到” 成千上万的玻璃杯，才能知道这个是玻璃杯吗？人类并不是这样做判断的，我们用过玻璃杯，或者是见过玻璃制品，在不需要众多 “数据输入” 的情况下就可以推断出来。

BV：正因为这样，我们需要大模型的能力。

特特：大模型的目的不是把模型做大，价值并不在于加参数。回到刚才识别三种杯子的例子，你可以做出一个上亿级参数的模型来完成这个任务，但仍存在无法解决更多任务的瓶颈。

Foundation Model 和 Pre-training 的好处是，把不同的信息源都学习进来，我们可能并不知道模型从哪里学到的关于 “玻璃” 的概念，但当它习得这个概念之后，会把这个概念抽象出来，并且能把这个知识运用到未来的预测和感知当中。这个是大模型和过去的技术不一样的地方。

BV：CV 2.0 有哪些不同？

特特：区别在于，第一是让 AI 具备和人一样感知世界的智能，解决真实世界的问题；第二是解决开放世界中通用任务问题；第三是具有人的常识能力。

BV：从 CV1.0 到 2.0 的分水岭有哪些？

特特：第一个关键节点，是 2021 年 OpenAI 的 CLIP 工作（《Learning Transferable Visual Models From Natural Language Supervision》），它讲的是如何 “以语言作为监督” 学习视觉信息。过去，如果我们用预定类别的方式来做识别，这个过程跟语言是没有关系的。而这篇工作提到，不同的概念在语义上有相关性，我们可以从人类的语言中获得这种相关性。思路就是，让模型去学习图片对应的描述，学习图片的视觉语义信息。

但这个 idea 即使在当时来看也并不新鲜，它独特性在于，用更大的数据量和计算量，用几百个 million 的数据来做训练，并且这些数据能很容易从互联网上获取。之所以有这个想法，是因为这项工作来自 OpenAI，当时已经开始做 GPT，他们看到了 scale 后模型的变化和影响，这彻底改变了我们对视觉和语言之间的认知。

再往后，2023 年 Meta AI 发布的 SAM（《Segment Anything Model》）相关工作也是这个转变过程中的 milestone。

SAM 是 CV 旧时代的最后一篇工作，新时代的第一篇工作。原因是，它要解决的是传统的视觉分割问题，这是一个旧问题。高等生命的视觉系统都有对物体分割的能力，这个能力非常重要，但实现 AGI 不会通过完美解决分割问题而实现。

尽管如此，SAM 放弃了旧时代的很多枷锁，放弃了特定的类别，解决了通用物体分割的问题。以椅子举例，椅子里有很多零部件，零部件里面可能还有细分的零部件，那么到底什么才是这个椅子呢？在 SAM 中，我们无需对椅子及其零部件进行标注，而是通过交互的方式对任意物体进行分割，找到我们希望得到的部分。

这为我们指明了一个方向：在一个模型下，一个通用的视觉模型去解决大量不同问题是可行的。这就是为什么我相信这项工作是为 CV 新时代开了一道门的原因。

比如，分割人像和分割文字，是两套系统。但在 SAM 中，是一套系统中需要解决的两个任务。那么思路打开之后，这套系统能解决的问题就很多了，有些人用它来去分割卫星的图像，有人其实用它来分割古书籍里面的一些文字，还可以去分割微生物体...... 这个模型完全没有见过古书字，但依靠良好的泛化性，可以再零样本情况下取得很好的效果。

BV：那下一个 10 年 CV 要去解决哪些问题？

特特：未来 5-10 年 CV 要解决的是真实世界的问题，让 AI 像人一样有感知世界的能力。但我们的真实世界是连续的视觉信息，不是单帧的，为了感知更多真实世界的内容，我们需要更强的视频理解能力。这里也有很多难题，比如说如何去表征一个视频？如何让模型去理解时间的概念？理解动作在时间上的连续性？理解物体在空间中的具体位置、远近大小？

假如有一个人经过一个障碍物，在单帧系统中，计算机就会感知不到被挡住的人；但如果是视频系统，就会捕捉到人经过障碍物前后的信息，“看” 到人在障碍物后面。

计算机视觉的金标准是人的感知能力。这个不光是学术领域的下一代问题，也是工业界下一代 AI 的经济价值所在的地方。

BV：感知和 “世界模型” 的联系是什么？“世界模型” 的本质是什么？

特特：当有了对真实世界更多的理解之后，对感知到的信息做未来的预测，这一套系统就是 “世界模型”。“世界模型” 是推理的一种形式，这种推理不仅包括逻辑推理，还包括一些 low-level （比如在像素上）的推理。例如，如果我推了球一下，这个球下一秒在视频里会显示成什么样子？对球的运动的推理，就是 “世界模型” 的体现。

这样的 “世界模型” 固然理想，但它很难构建，甚至人也不会用这样的推理方式来完成任务。

其实世界模型不是一个全新的概念，麦卡锡、明斯基和香农等科学家在 1956 年达特茅斯会议上谈论人工智能开端的时候，就提到了 Abstraction（注：抽象指的是 AI 系统对现实世界的简化和概念化表示，这种表示使得 AI 能够进行状态估计、预测、模拟、推理和决策，从而更好地与外部环境互动）。Abstraction 是比世界模型更广泛的定义，世界模型是实现 Abstraction 的一种构想，但不会是唯一的一种方案。我认为它甚至大概率不是未来成功实现智能的方式 ——智能体对常识的推理能力应该是涌现的。

达特茅斯会议主要参与者及议题

BV：当 AI 能更好地理解视频、建立 “世界模型”，是否就拥有了空间上的智能能力？

特特：这个问题的关键在于，理解是智能的原因还是智能的现象？

如果理解是智能的现象的话，我们看到一个智能体，它就应该具有理解世界的能力；但如果理解是智能产生的原因，那么只有它学会了对世界的预测、掌握了世界模型之后，它才能成为智能体。

生物进化是一个很复杂的过程，智能的出现在进化的角度是一个相辅相成的过程。理解能力越强，智能体就越强大，智能体越强大，它在进化上就更占优势，就会有更好地理解能力。

下一代 AI 一定是对世界有理解、推理和搭建 “世界模型” 的能力的，但下一代的 AI 未必会因为学习 “世界模型” 而产生。

BV：如果学习推理未必产生智能，那么智能如何产生？

特特：把 AI 部署到真实世界中去，在与世界的互动中获得空间智能。

如果一套系统只存活在数字世界，没有办法在真实世界中一览天下，那它不一定会成为真正的智能体。

就像具身智能机器人，从多模态环境里学到各种各样的常识，获得预测能力。比如踩到了石头会摔倒，从手中掉了的杯子可能会摔碎。我们很难只通过训练世界模型的方式产生下一代智能，所以我们要像滚雪球一样，让智能体学到越来越多的常识，做更多的任务。说不定有一天智能体可以把自己送到月球上去，自己干活工作，然后回来告诉你它干了什么事情。

BV：智能是在智能体跟环境的交互过程中产生、涌现。这样来看，空间智能的产生路径就很清楚了。

特特：是的，第一步是通过传感器观察、理解物理世界，如果没有办法观察物理世界，就没有办法理解物理世界。

第二步，跟物理世界做交互，知道如何做抓取、走路、避障、操作物体。

因此，我们需要通用视觉模型来更好地理解感知世界，理解时间上、空间上的运动性等特征；另一个就是 Embodied AI，让机器跟环境交互，在多模态的真实世界里产生智能。

比如，在与 Ilija Radosavovic 合作的《Real-World Robot Learning with Masked Visual Pre-training》中，我们通过在大规模真实世界图像和视频数据上进行自监督视觉预训练，预训练后需要在实际的任务中做小规模 finetune，使机器人在现实世界任务中学习到丰富的视觉表示，帮助机器人更好地理解和感知现实世界中的三维空间信息，并在复杂环境中做出合理的决策和行动。

做 AI 的人怎么看艺术生成？

BV：生成呢？在智能产生的过程中，生成到底以什么形式出现？

特特：这个是目前大家没有定论的事情。这与人的想象是不同的，人的想象是抽象地去想象可能会发生的事情；而现在的生成式 AI，更多是以在细节上、以像素级别的水准，把内容给生成出来。

大多数人都不是画家，我的画画的艺术能力极为落后，但我还是有艺术上欣赏的能力。

回到达特茅斯会议上大家对人工智能的憧憬。大家认为生成其实是 creativity and randomness，计算机不是完全按照既定的程序去执行每一个指令。就像人类一样，无论是我们的思维还是动作，都不一定是在执行一个特定的指令，因为我们有创造力和想象力。所以我觉得生成是智能的一个重点，但是具体能不能像画家一样把它的艺术性画出来，就是另一回事。

BV：“热爱艺术人” 和 “搞技术的人” 这两个标签的叠加下，让你对 “AI 是否能创造艺术” 这个话题有什么不同的感受？

特特：音乐、美术、电影，这些在我的生命中是不可或缺的。

第一，艺术是关于未来的，不是关于过去的，无法用过去已有的信息来训练 “生成” 艺术。艺术需要经历和感受，是人对外在世界和内在世界的抽象理解。

目前，AI 的价值更多的体现在生产工具的属性上，我们可以通过 AI 来让生活更便捷、安全、理想，解放我们的时间和生产力。但 AI 没有感情经历，没有生活经历，跟人类的悲喜并不相通，所以 AI 很难去感受艺术，也就很难生成艺术。

法国印象派代表人物克劳德・莫奈《日出印象》

回过头来看，艺术之所以是艺术，很多时候是跟观察者有关系的，一千个人里有一千个不同的哈姆雷特。当人们欣赏画作、音乐的时候，会从中得到共鸣，感受到新的东西。

第二，艺术和内容制作很难区分开来。艺术是一个复杂的过程，其中包括创造 idea 部分，也包括制作内容部分。

比如说，画家画画，雕塑家雕刻作品，剧作家创作剧本，我们很难把创造 idea 和制作内容区分开来。这些艺术行为不仅是一个灵感想法的产生，更重要的是要把灵感想法串起来、表现出来、制作出来，这中间需要很多 “体力活”。比如罗丹的每一个雕塑作品，都经历了艺术家大量绘画，试验，和完善。当我们用写 prompt 的方式去生成一个内容，我们只是利用 AI 制作了内容，不一定是创造了艺术。

第三，我们也要把艺术和娱乐也要区分开来。当我们听到一段旋律或是看到一段影像，觉得很好看、很过瘾，但不代表它激发我产生了认知上的改变、情绪上的共鸣、对世界新的理解。

目前 AI 更多是在生成娱乐，而不是艺术。

故事另一面

BV：科研路上，哪些人给你带来技术上的启发？

特特：2018 年，我在孙剑老师的指导下参加 COCO 竞赛（注：Common Objects in Context），题目就是如何做出更强大的物体检测器。我们用了 256 张 GPU 去训练这个模型，这个数量级的 GPU 让模型的收敛速度非常快，但却很 “非主流”。因为当时的主流观点是模型并非越大越好，而我们的方案甚至早于第一代 GPT。孙剑老师问我们：这个东西的边界、上限在哪里？模型效果好的背后原因到底是什么？

这个启发非常重要：你要不停的问为什么是这样，而不是那样？传统的方式就一定是对的吗？有没有下一代解决方案？授人以鱼不如授人以渔，总有问题是老师解决不了的，总有问题是需要年轻的头脑去思考的。而这些思考对刚入门的年轻科研者来说是非常重要的一课，能让我们的工作做的更扎实。

图中左三为肖特特，右二为孙剑老师

BV：伯克利人工智能实验室（BAIR）给你留下什么印象？

特特：BAIR 不是一个 lab，而是一个很多方向的 super lab 联合体。整个科研楼还挺挤挺小的，很多教授就挤在角落里没有窗户的办公室里搞科研。

BAIR 有很多方向，在计算机视觉领域有传统感知，有 3D 重建，也有图片和视频生成，还有视觉和语言中间的 understanding。其他还有 NLP、robotics、AI 伦理、AI for Science 等领域方向。BAIR 成立的背景，就是希望学生们从不同的方向上做交流，在学科内交叉领域相互碰撞。理解、感知、思考、推理、操作、运动这些都是 AI 的一部分，更广一点来看，我们跟心理学、神经科学、行为科学也都有关系。

我的教授 Trevor Darrell 是 BAIR 的 co-founder 和 Founding Director。Trevor Darrell 教授最大的特点就是包容，在一个有很大变化的研究领域，研究者需要自由的空间去探索感兴趣的问题。很多时候我们的发现发明不一定是大家都认可的技术路线，但我们要有空间去追逐这样不被认可的技术想法。

在 BAIR Lab，从 2021 年开始，我与 Ilija Radosavovic 合作了多篇工作，从《Masked Visual Pre-training for Motor Control》到《Real-World Robot Learning with Masked Visual Pre-training》，以及《Real-world Humanoid Locomotion with Reinforcement Learning》。

我们原来都是学习计算机视觉的，但都认为如果没有机器在真实世界的部署，AI 的发展就会陷入瓶颈。之后我们放弃了原有的研究舒适圈，进入到没接触过的 robotics 领域，希望探索下一代通用人工智能。

图片来源：Berkeley Artificial Intelligence Research 官网，首排左四为肖特特

BV：创业之后一定有很多团队建设上的思考。组建团队是否是在找 CEO 的 “复制粘贴”?

特特：我们团队非常多元。有刚从学校出来的 PhD，也有工业界工作 20 多年的成员，还有大学辍学自学设计来做产品的成员。我们在组建团队的时候，并不是看这个人跟我的经历背景、技术观点、对未来的想法 “有多像”，而是看他是否能独立地带来不同的观点，提出不同的声音。因为我们要做一个新的东西，既然是新的，那它就没有对错之分。

Debate 是我们的团队文化之一。Debate 的价值不是输赢，不见得每一个技术想法我们都需要达成一致。而越是不一致，我们就可以去讨论更多的 corner cases。

我也很鼓励大家在职业早期到创业公司经历一番，锻炼自己定义问题的能力，以及在小团队工作承担更多责任的能力。

BV：如今，AI 领域涌现出新一代年轻有为的创始人。空间智能是下一代 AI 创业者的机会吗？

特特：我相信所有的新的技术都会带来新的改变，不只是空间智能。而新一代创业者只是对新一代技术的理解会更深刻一些。

但是更重要的是，新一代创业者有没有去创造新事物的激情，有没有对旧世界、旧方法体系的不甘，有没有问出 what's next 的勇气。

BV：看到你朋友圈有分享过一句歌词：What shall be our legacy？What will our children see？你更希望留给世界、留给下一代技术人些什么呢？

特特：我觉得每一代的人都有每一代人的责任。

个体的总和就是世界。我觉得各行各业的人应该对工作有热情，因为我们的工作就是对理想世界的塑造，都会最终对世界产生影响。

同时，我们技术人就像是新世界的守门人，也要保护技术不被滥用。开发和保护，是相辅相成的。这不是两拨人的责任，是同一拨人的责任。

BV：那最后一个问题：为什么叫 PromptAI？

特特：Maybe leave it for the future. 大家现在都不知道苹果公司的苹果为什么少了一块，对吧。永远不满足于目前的定义，永远在提出下一个问题的路上。

世良情感网

对话肖特特：从伯克利到PromptAI创业，发明创造下一代视觉智能

机器的心脏