具身智能：开启AI与物理世界交互新纪元

2024年被业界称为具身智能发展的元年。从马斯克、黄仁勋等科技大佬，到谷歌、OpenAI等国际人工智能领军企业，都在纷纷抢滩布局具身智能。那么，究竟如何来理解具身智能？有哪些入局者？应用前景如何，又面临哪些落地挑战？本文将一一阐述。

- 文章信息 -

本文由e-works编辑部黄菊锋原创发布。

2024年3月，美国人形机器人初创公司Figure AI在社交媒体上发布了一段视频，视频中其与OpenAI 合作研发的人形机器人Figure 01，在AI多模态模型的赋能下，不仅能理解周围环境，与实验员流畅地对话，还能理解人类的需求并完成具体行动，如听到实验员“我想吃点东西”的指令后，将桌上唯一可以食用的苹果递给了他。该视频发布后，有人惊叹科幻电影中的场景正在走进现实，“未来已来”。

▲ 视频：Figure 01展现出无与伦比的对话和操作能力

同年9月，我国《开学第一课》荧幕上，迎来了一位特别的“学生”——全球首个通用人工智能体“通通”。它的心智相当于三四岁儿童，能通过自我“价值”来判断和驱动行为，包括自主完成收纳、打扫等日常任务。其表现令全国师生及家长群体深感震撼，也引发了社会各界的广泛关注。

随着这些能够感知并与物理环境进行实时互动的智能系统的诞生，标志着人工智能正迈向一个全新的阶段——具身智能时代。长期以来，人工智能主要以数字形式存在，与现实世界的交互有限。伴随着以ChatGPT为代表的各类大模型的出现，数字世界的AI算法展现出逼近甚至超越人类的思维能力，这促使人们愈发关注如何拓展AI的认知边界，使其从互联网的数字世界迈向现实的物理世界。在此背景下，赋予AI“形体”与交互能力的具身智能（Embodied AI）逐步走入人工智能的舞台中央。

2024年被业界称为具身智能发展的元年。从马斯克、黄仁勋等科技大佬，到谷歌、英伟达、OpenAI等国际人工智能领军企业，都在纷纷抢滩布局具身智能。那么，究竟如何来理解具身智能？有哪些入局者？应用前景如何，又面临哪些落地挑战？本文将一一阐述。

如何理解具身智能？

具身智能的思想萌芽于人工智能诞生之初。1950年，“人工智能奠基人”图灵（Alan Turing）在其论文《Computing Machinery and Intelligence》的结尾，展望了人工智能可能的两条发展路径：一是聚焦抽象计算（如下棋）所需的智能；二是为机器配备最好的传感器，使其可以与人类交流，像婴儿一样进行学习。这两条道路逐渐演变成了非具身智能（即传统的人工智能）和具身智能。但在过去几十年间，具身智能的发展受限于算法、数据及软硬件条件等，长期处于理论研究和实验性探索阶段。

近年来，随着AI技术的突破式发展，具身智能成为全球科技和产业竞争的新焦点。特别是2023年，英伟达创始人黄仁勋在ITF World半导体大会上提出，“具身智能”将引领下一波人工智能浪潮，这一观点引发了全球范围内对“具身智能”的广泛关注。

具身智能从字面上可以理解为“具有身体体验的人工智能”，即通过赋予AI “身体”，使其能够与环境进行感知和交互，具有自主决策和行动能力，并能够从经验反馈中实现智能增长和行动自适应。其核心是通过在物理和数字世界中的学习和进化，实现理解世界、互动交互并在真实世界中完成任务的目标。

根据中国信通院等联合发布的《具身智能发展报告（2024年）》，具身智能应同时具备“本体、环境、智能”三要素。其中，本体是任务的执行者，通常是具备环境与状态感知、运动和操作执行能力的物理实体。本体可以有多种形态，如四足机器人、复合机器人、人形机器人及无人车等。环境是本体所交互的世界（真实的物理世界或虚拟的数字化世界），是具身智能获取信息的来源，在塑造物理行为和认知中起着关键作用，能决定学习多少知识，并直接影响具身智能系统的决策和行动。智能是具身智能的核心，不仅体现在通过大模型、深度学习、机器学习等算法实现智能，还包括通过本体与环境的交互实现智能展现，如对外界信息的获取与理解、对自身行动的规划与决策、对任务的下达和对复杂环境的适应，以及在与环境的不断交互过程中，实现可持续的智能进化与提升。

具身智能的实现过程包括：在与环境交互的过程中，通过本体的传感器感知环境，收集环境与自身状态信息；进一步，智能系统根据获取的感知信息以及任务目标，对自身行为进行规划决策，并生成控制指令，操控本体执行动作任务，进而影响环境。同时，智能系统还通过“交互学习”和拟人化思维去学习和适应环境，从而实现智能的增长。

具身智能三要素关系

综上所述，具身智能并不是传统人工智能的简单升级，而是一种全新的研究范式。与传统人工智能相比，具身智能不仅仅是拥有物理实体，更在于具备与环境交互感知的能力，以及基于感知到的任务和环境完成自主规划-决策-行动-执行等一系列过程。具体来说：

① 传统AI侧重于模拟和实现人类智能的符号推理和计算，具身智能强调“身体”是认知过程的一部分，智能不仅源于“大脑”的思维过程，还来源于“身体”及与外部世界的交互。同时，智能与本体的生理特性和所处的环境紧密相连。不同的本体结构和感官经验，可造就不同的思维和认知。

② 传统AI由静态大数据驱动，主要是“看”（计算机视觉）和“读”（文本NLP）。具身智能通过主动探索和与多模态（如视觉、听觉、触觉、嗅觉、味觉等多感官融合）的感知和交互来实现学习与进化，即“感受世界-对世界进行建模-采取行动-验证并调整模型“，这使得具身智能具备理解和适应环境及持续优化性能的能力。

③ 传统的AI大多是“纸上谈兵”，在已有的、非实时交互的数据集上做强化学习，这种强化学习没有考虑到感知和行为在环境交互过程中的合理性，特别是感知和行为过程中得到结果的好坏对认知决策的影响。具身智能是“身体力行”，通过置于真实或高度仿真的环境中，用实际的身体感知和行为来学习，能实时地根据环境的反馈来调整自己的行为，从而做出更加合理的决策。

④ 传统AI通常是在固定的数据集上进行训练，然后应用到特定的任务中，缺乏泛化性。具身智能以场景为目标，从场景里面进行学习，并能从一个场景学习中泛化出更多场景。

具身智能与传统人工智能的对比

传统人工智能（左）和具身智能（右）的区别

（来源：上海交通大学教授卢策吾）

具身智能相关概念辨析

人工智能领域的快速发展，使得智能体、大模型、嵌入式人工智能等技术名词不断涌现。这些技术与具身智能有联系也有区别，也造成了一定程度的概念混淆。

首先来看智能体，是指能够感知环境并采取行动以实现特定目标的实体。与具身智能一样，具备自主性、适应性和交互能力。但是，智能体可以是软件程序、机器人或其他自动化设备，即智能体不一定具备物理形态，可以是在虚拟环境中运行的软件实体，如聊天机器人ChatGPT、虚拟助手苹果Siri。因此，并不是所有的智能体都是具身智能，只有那些具有物理身体并与环境互动的智能体才能被称为具身智能。

关于具身智能还有一种误解，认为“AI（大模型）+物理实体（机器人）=具身智能”。将大模型搭载在机器人上，让大模型充当机器人的“大脑”，可以大幅提高机器人的语言交互、环境感知、任务决策等关键能力，帮助机器人与人类进行对话交互并做出决策，使其能够更有效地在真实环境中工作，但这并不等同于实现了具身智能。本体、智能、环境的高度耦合才是具身智能的基础。值得一提的是，具身智能包括但不等于人形机器人。具身智能是一种智能技术理念，强调智能体通过身体感知和行动来理解与应对世界；人形机器人则是具有人类形态和功能的机器人，除了具备一定智能外，还注重模仿人类的动作和行为，如行走、抓取、操作工具等，是具身智能的一种典型应用。同时，人形机器人的仿人特性使其成为具身智能的一种载体，但具身智能还可通过机械手臂、四足或六足机器人、轮式机器人等多种硬件形式来实现。

另外，近年来备受关注的边缘智能、嵌入式智能等技术，同样涉及AI与物理实体的结合，但与具身智能也各有侧重。边缘智能是将AI算力从云端下放至边缘设备，实现智能在数据源头的实时响应，从而降低延迟，提高数据处理的实时性和隐私性。嵌入式智能是一种让 AI 算法可以在终端设备上运行的技术概念。简单来说，就是通过集成AI技术，嵌入式设备能够在本地（边缘端或终端）实时完成环境感知、人机交互和决策控制等功能，而无需依赖云端服务器，且相比传统嵌入式系统，更加智能、自主和高效。

嵌入式AI具备嵌入式系统的行为能力和AI的“思考”能力

例如，AIPC通过采用AI专用的硬件加速器与AI优化的软件堆栈，能够在本地完成AI任务，执行许多高级的机器学习任务。智能手机中加入智能助手，可以接受语音指令，提供问题解答、建议并协助完成任务。在自动驾驶汽车中，基于AI的车载嵌入式系统能根据车速、道路障碍、交通标识信息对当前状态以及趋势进行判断，并实时发布行驶指令。

总的来看，边缘智能与嵌入式人工智能这两种技术的最大特点是致力于将AI从云端下沉到端侧，以提高数据处理的效率和安全性，实现高效智能，而不关注设备是否是通过与环境的互动来获取知识和实现智能增长，是否具备物理行动能力，物理形态也不是其智能实现的必要部分。另外，边缘智能与嵌入式人工智能的学习和自适应能力有限，通常是在预设的算法和模型框架内进行，更依赖于外部数据的输入和训练。

此外，尽管嵌入式人工智能也具有感知环境、进行交互、自主决策和行动的能力，但由于嵌入式系统通常被设计为执行特定任务，具有小型化、资源受限等特点。因此，以上这些能力在嵌入式AI中是可选项，取决于具体的应用场景和设计目标，却是具身智能的关键特征。

因此，边缘智能与嵌入式人工智能仍然是传统AI的范畴。不过，边缘智能、嵌入式智能等技术的兴起，为物理世界中的智能化应用奠定了基础，也为具身智能的发展提供了有力支持。如嵌入式人工智能可以作为具身智能的一部分，为其提供必要的计算、感知、处理或控制等功能。同时，具身智能集通信、计算以及存储于一体，对于AI在边缘端和终端的算力需求显著提升，边缘智能与嵌入式人工智能将是有效补充。

具身智能有哪些入局者？

具身智能作为如今最火赛道之一，吸引了越来越多的初创企业和老牌大厂投身其中，不仅推动了技术的进步，也塑造了新的产业格局。根据企业背景和业务领域，笔者将这一领域的主力军分为四类：

第一类是初创企业。具身智能领域初创公司主要分三种：专注于具身智能大模型、人形机器人整机和两者同时涉及。

人形机器人被认为是具身智能的重要形态，也成为了众多入局者争相探索的方向。据不完全统计，全球范围内专注于人形机器人整机的初创公司目前已超150家且持续增加中（其中，中国最多，远超第二名美国），包括Figure AI、智元机器人、加速进化、星动纪元、星海图、众擎机器人、艾欧智能、逐际动力、星尘智能、银河通用、九光智能等。成立于2022年的Figure AI已发布被其称为“地球上最先进的AI硬件”的第二代人形机器人Figure 02，最新估值达到26亿美元，是如今全球估值最高的人形机器人公司。由华为天才少年“稚晖君”于2023年联合创立的智元机器人，相继发布了具身智能机器人远征A1、远征A2及灵犀X1系列产品，提出了具身智能G1到G5的技术演进路线，过去一年时间完成七轮融资，估值达到70亿元。

智元远征A2-W轮式通用机器人(来源：智元机器人)

值得一提的是，当前国内人形机器人初创企业中，有相当一部分是由科研院校的教授以“兼职”创业者的身份创立，诸如星动纪元、加速进化、星海图、银河通用等，其创始人皆来自科研院校。而国外更多是具有科技大厂背景的创业团队。

具身智能大模型因涉及芯片、软件、AI算法，资金投入远高于人形机器人本体，目前更多是科技大厂间博弈，初创公司数量远低于人形机器人本体初创公司。不过，大多数投身于具身智能大模型的初创企业都拥有来自高校和研究机构的创业团队背景。诸如Physical Intelligence是由加州大学伯克利分校、斯坦福大学教授团队和谷歌科学家等科研和技术大牛创立，成立仅一个月就获得7000 万美元融资，投后估值4亿美金。Skild AI是从卡内基梅隆大学孵化，是目前估值最高的机器人具身智能大模型初创公司。穹彻智能由上海交通大学教授卢策吾联合创办，已成功推出穹彻具身大脑Noematrix Brain，完成数亿元的天使轮和Pre-A轮两轮融资。此外，还包括伯克利系Covariant、清华系千寻智能、哈工大校属企业若愚科技等。

其中，英伟达成立了通用具身智能体研究实验室（GEAR），还推出了针对人形机器人的大模型（GROOT）、开发平台（Isaac Lab）和算力（Jetson Thor）组合套装。Meta与卡内基梅隆大学联手打造通用机器人智能体“RoboAgent”。微软、OpenAI、亚马逊、三星等多家企业则参与投资Figure。华为是国内入局具身智能赛道的佼佼者，其成立了全球具身智能产业创新中心，发布了盘古具身智能大模型，并与乐聚机器人、智元机器人、宇树机器人、拓斯达等在具身智能落地方面开展战略合作。腾讯Robotics X研究多模态大模型与机器人的融合，推出了第五代机器人“小五”。小米通过自研CyberOne人形机器人直接布局具身智能领域。

腾讯RoboticsX实验室发布的轮足类人机器人小五

云深处X30 机器狗(来源：云深处)

此外，具身智能领域也吸引了众多研究机构及高校的关注和参与。如前文提到的通用智能体“通通”是北京通用人工智能研究院研发，其还推出了通用人工智能评级标准与测试平台。国家地方共建具身智能机器人创新中心（原：北京具身智能机器人创新中心），发布了通用机器人母平台“天工”、全身协同智能小脑平台和多能具身智能体平台“开物”，在2024年11月还发布了天工开源计划。李飞飞吴佳俊团队推出了VoxPoser的系统，它能够将自然语言指令转化为具体的行动规划，使得机器人能够执行从未遇到过的任务，还提出了深度进化强化学习的新框架，用于创建具身智能体。德国Fraunhofer物流研究所研发了自主平衡搬运机器人evoBOT，能够在仓库等区域进行自主移动，同时聪明地避开障碍物，爬上坡道，越过小平台，以及穿行于各种不平坦地形，当前已在慕尼黑机场货运站和停机坪完成了首次实际试验。

具身智能典型应用场景

随着众多参与者竞相涌入具身智能领域，具身智能技术正逐步从理论走向实践，在工业制造、自动驾驶、物流运输、家庭服务、医疗康养等多个领域展现出广泛的应用前景。

在工业制造领域，具身智能将变革人机协作模式，实现更安全、智能化的柔性制造流程，包括打破人机交互的语义隔离，让人类可以用自身习惯的方式与具身智能沟通，同时机器能够更好更快地理解人类意图，提高人机协作的效率与安全性；代替人类成为工业生产线上的柔性执行机构，完成复杂的工作，减少人工干预并提高生产效率。例如，Figure 02已被引入到宝马等企业的汽车生产线进行测试和应用，可无休止工作20个小时，与人类直接语音对话，并执行繁重、精密的作业任务，如组装器械、拿钢材等。

▲ 视频：Figure 02在宝马工厂“打工”

在自动驾驶领域，具身智能将为系统的感知、决策和行动提供完整的闭环解决方案，并具有动态环境的全面感知和高度泛化，高效可靠的驾驶决策与行动控制，以及高度智能的自主学习适应能力。例如，特斯拉自2020年推出FSD即完全自动驾驶系统以来，便致力于实现车辆在无需人工干预的情况下自主驾驶。目前，FSD已经能够实现自动紧急制动、自动变道、交通导航，甚至在城市街道上也能进行半自主导航，并对交通信号灯或停车标志作出响应。2024年10月11日，特斯拉无人驾驶出租车Cybercab和无人驾驶厢式货车Robovan两款概念车发布会的举行，或将促进具身智能驾驶的跨越式发展。

在物流运输领域，具身智能将助力仓储物流产线的智能化升级，实现安全、高效且不间断物流运输作业。例如美国公司 Agility Robotics 的 Digit人形机器人已在艾伦牧场以及亚马逊仓库内进行实际应用测试，在亚马逊仓库其能够连续工作长达7.5小时，并且在执行任务时实现100%的自主性。其工作效率也已经达到了人类速度的75%，并且拥有高达97%的任务完成成功率。优必选的工业人形机器人Walker S Lite已入驻极氪5G智慧工厂“实习”，可在不同栈板和流水线上自主导航和负重行走，并与AGV（自动导引运输车）及员工协同作业完成料箱搬运任务。

动图：优必选人形机器人进入极氪工厂进行物流搬运

在医疗康养和家庭服务领域，通过具身智能医疗机器人执行精细的手术任务，推动医疗服务从传统的被动治疗向主动预防、个性化护理和智能化康复转变。家庭服务机器人能够通过感知用户的需求，提供更拟人化、个性化的家庭护理和家务服务。

此外，陆地、水下和空中无人装备，也在融入具身智能技术，实现更高水平的自主化、智能化和多功能化，从而代替人类完成巡检、环境监测、搜寻和救援等工作任务。如科技公司 Ghost Robotics 开发了一款型号为 VISION 60 Q-UGV 的水陆两栖式机器狗，具备在水中游泳和陆地行走的双重能力。该机器狗集成了Onyx Industries 的水下推进系统NAUT，它允许操作员远程控制机器人或让它自主执行预编程任务。美国空军已经购置了 Vision 60 型号的机器狗在廷德尔空军基地周围进行巡逻。

结语

近年来具身智能取得了显著进步，并受到高度关注。但总体而言，其发展仍处于初步探索阶段，主要表现为演示和科研成果的展示，而商业化的实际应用相对较少，且面临诸多挑战，包括：具身智能在感知和执行、学习与自适应及自主学习等方面的能力仍有待提升，相关关键技术还不够成熟，如目前的具身智能仍需要人类智能的介入，尚未探索出一种能够适应高度动态变化、具备通用性和广泛适用性的通用基础大模型，即便是发展迅速的人形机器人也均处于训练特定任务的阶段；高质量的海量数据依然稀缺，且获取此类数据难度高而昂贵；具身智能的应用场景和商业模式还不够清晰，同时用户对具身智能的接受度和信任度也需要逐步建立，无法在短时间内实现广泛应用；此外，在推动具身智能商业化应用过程中，还需解决标准体系、安全隐私、法律法规与道德伦理等一系列问题。

因此，面对具身智能的发展热潮，企业在积极投身其中的同时，也需保持审慎态度，理性地评估潜在风险，以规避不必要的损失。例如，当前备受瞩目的人形机器人，其商业价值已受到不少业内人士的质疑。他们认为，具身智能的核心在于模拟人类的思考与问题解决能力，而非必须拥有人类外形，且人形设计成本高，也不一定符合投资回报率（ROI）的预期。波士顿动力公司的创始人Marc在2024世界机器人大会上就直言，自己非常不看好人形机器人行业。他认为，工业机器人已经非常成熟，能够商业化，目前人形机器人“在某种程度上是一种炫耀，而不是一种生产力”。

世良情感网

具身智能：开启AI与物理世界交互新纪元

雨后彩虹的编织师