AI最热门话题:具身智能到底是什么?VLM+机器人?并不那么简单

查理谈科技 2024-07-08 13:41:21

具身人工智能(Embodied Artificial Intelligence, EAI), 也称为具身智能(Embodied intelligence,EI),就是将人工智能融入机器人等物理实体,赋予它们感知、学习和动态与环境互动的能力。

一、概念的提出

具身人工智能的想法最早是在1991年,当时Rodney Brooks写了一篇叫《无表征的智能》(Intelligence without representation)文章,首先提出这个概念,随后引发大量讨论。

Brooks认为:

当我们研究非常简单的智能时,我们发现,对世界的明确表述和模型只是阻碍。事实证明,将世界作为其自身的模型才是更好的选择。

这篇文章提出了一个大胆的想法,就是说智能的行为可以不需要复杂的算法或者内部的记忆,只需要机器和它的环境之间的简单物理互动就够了。

然后在1999年,有两位学者Rolf Pfeifer和Christian Scheier写了本书叫《理解智能》。他们认为智能不只是大脑或者算法的事,而是整个身体的构造和功能一起工作的结果。他们不同意那种只看重大脑或者计算的智能观念,而是说身体对智能的形成有特别重要的影响。

到了2005年,Linda Smith从认知科学的角度提出了一个叫“具身假说”的理论。这个理论说我们怎么想、怎么看世界,还有我们的能力,都是通过我们的身体和周围世界的不断互动才形成的。

具身认知模型,其中身体、世界、感知和行动彼此动态相关

这个假说特别强调了环境的重要性,环境不只能给我们提供信息,还能帮助我们形成动作和思维方式。

这些研究告诉我们,要开发具身智能系统,有三个重要的点要注意:

第一,具身智能系统不能只靠预先设定的复杂规则来处理不同的情况;第二,具身智能系统得能自己学习和适应环境的变化;第三,环境对我们的行为和思考方式都有很大的影响。二、最近的发展

基础模型的最新进展,如大型语言模型(LLM)、视觉语言模型(VLM)和ChatGPT等技术在人形机器人中的应用,导致了一种普遍但错误的观念,即具身智能仅仅是让这些基础模型在机器人中执行推理任务以增强机器人的认知能力。

GPT-4o、BERT、CLIP和DALL-E等基础模型增强了机器人解释视觉和文本信息的能力,显著提高了它们的感知能力。这些模型允许机器人通过理解更类似于人类交互的上下文、对象和指令来执行复杂的任务。此外,这些基础模型确实满足了EAI系统设计的第一原则,因此这些基础模型的推理不依赖于预定义的逻辑来管理特定场景。

然而,仅凭这些基础模型并不能涵盖具身智能系统的全部要求。这些模型必须与进化学习框架相结合,才能从它们与开放环境的物理交互中有效地学习。此外,我们需要开发一个虚拟环境来有效地与具身智能系统交互,因为获取现实世界的交互数据非常昂贵且效率低下。

最近的一个例子是Habitat平台,它通过提供高效、逼真的3D模拟环境来促进EAI的发展,虚拟机器人可以在该环境中进行训练。

Habitat已被证明可以改善EAI系统,特别是在点目标导航等任务中,该平台能够提供大规模、可扩展的训练环境,与传统方法相比,可以显著提高学习效果。

等到这样的系统出现了,我们马上要解决的问题就是怎么让它明白物理规律,这样它才能在真实世界里好好工作。



0 阅读:0

查理谈科技

简介:感谢大家的关注