中金|具身智能系列（一）：智机融合，人工智能时代的星辰大海

具身智能是本体与智能体的结合，本体实现与物理环境的交互，感知环境做出行动；智能体通过环境信息持续学习赋予智慧。我们看到，近年来具身智能成为AI领域关注的焦点，海内外众多厂商于2023年推出人形机器人新品，又于2024年开启商业化路径的初探，其中不乏特斯拉、Figure.ai以及国内大疆、宇树等企业。我们认为，具身智能未来有望在各行各业中落地，发展前景广阔。报告中，我们将人类技能分为多个细项的不同类元任务，结合具身智能产业的进步以及各行业各元任务需要分配的就业人员对应市场空间进行测算分析，我们预计，至2030年中国人形机器人出货量有望达35万台，市场空间有望至581亿元人民币，2024-30E CAGR均有望超过250%。

摘要

我们认为，具身智能行业受政策、技术水平、产业需求等多环节驱动——

政策层面，人形机器人的战略地位得到提升。具身智能是我国发展新质生产力、实现产业升级的重要方向，《人形机器人创新发展指导意见》[1]已将人形机器人提升至战略高度。除中国外，全球各地区均积极通过政策或补贴的方式支持本国产业的发展，我们认为人形机器人已成为各国AI竞争的重要舞台。

供给侧，技术进步加速行业发展。具身智能“具身”的特点对算法、算力和数据提出了更高的要求。在大模型AI的推动下，算法引入多模态大模型，提升算法的泛用性与涌现能力；端侧算力由分布式向集中式演进且向更高算力迭代，计算能力与实时性要求大幅提升；数据侧，产业正通过现场收集、仿真模拟、大规模数据集开源等方式，解决行业高质量数据不足的问题。核心零部件侧，我们测算预计Tesla Optimus中各类传感器、丝杠、减速器、电机的成本占比分别约为36%、23%、16%、9%。在价值量较大的传感器以及精密机械件（行星滚珠丝杠）等领域依然以海外供应商为主，但在广阔的市场空间预期推动下，本土品牌正加大研发投入缩小与海外头部公司的差距。

需求侧，产业落地想象空间广阔。我们认为，具身智能是AI落地的重要抓手，代表了新质生产力的先进方向，既能提升产业效率，亦有望助力中国工业能力进一步升级，对中国高质量发展有着重要意义。我们认为中国有望凭借大工业、大消费的资源禀赋实现具身智能率先落地。早期阶段，人形机器人有望用于执行简单任务，实现对各行业重复性工作以及危险性工作的替代，帮助企业进一步提高生产效率。远期阶段，伴随性能的提升以及劳动力结构的变化，具身智能也有望从简单功能向更通用化的场景拓展，落地千行百业。

风险

人工智能技术突破遭遇瓶颈，成本下降不及预期，商业化落地不及预期，社会伦理问题，隐私安全问题。

正文

具身智能，人工智能下一场科技浪潮

什么是具身智能？

具身智能（Embodied artificial intelligence，EAI）由“本体”与“智能体”构成，以“感知决策、物理实体、环境交互”为主要特征。具身智能可以感知并理解周围环境，在物理环境中执行具体任务。与大模型等离身智能（Disembodied AI）不同，具身智能不仅有AI算法构成的“智能体”，还有真实的物理实体，以实现与环境的交互；与已广泛应用的工业机器人等有实体机器人不同，这一类机器人的实体为执行任务而存在，而具身智能之所以具有实体，是希望从本体与环境的交互中获得对世界的理解、实现自主学习[2]，更加强调“环境交互”。

图表：具身智能是能够与物理环境交互并从交互中学习的人工智能系统

资料来源：高通官网，中金公司研究部

与智能汽车类似，具身智能的实现包括“感知、决策、控制”三个主要环节，并需要内外部通信传输的支持。

► 感知：具身智能交互世界的窗口，通过环境传感器、运动传感器收集环境与自身状态信息，作为决策环节的依据。

► 决策：根据感知的信息以及任务目标，对自身行为进行规划决策，并向控制模块发出指令。

► 控制：将决策指令转化为实际操作，实现与物理世界的互动。

► 传输：强调低时延、多连接、连续性能力。

图表：具身智能主要组成部分（以人形机器人为例）

资料来源：特斯拉官网，机器人在线，中金公司研究部

具身智能本体包括众多形态，人形机器人或打开更大的想象空间。具身智能的本体形态十分丰富，包括四足、轮式、履带式、人形等，甚至智能汽车亦可称为具身智能的典型形态之一。我们认为，人类社会的诸多工具与设施是参照人类的尺度去设计、运行的，具身智能设计成人类形态有望更好地适应人类社会的各种任务与场景，全面复用基础设施，人形机器人有望打开更大的想象空间。本报告后续内容将重点围绕人形机器人展开叙述。

图表：具身智能物理实体形态多样

资料来源：《Aligning Cyber Space with Physical World: A Comprehensive Survey on Embodied AI》（2024年），中金公司研究部

发展历程：早期关注本体运动机能，AI浪潮开启智能体进化

行业发展已约百年，研究重心逐渐由“本体的运动机能”转向“智能体的感知决策水平”。

图表：人形机器人发展历程

资料来源：觅途咨询，各公司官网，中金公司研究部

当前阶段发展重心逐渐向提升智能体转变。1）本体迭代：运动性能继续提升。例如2023年末特斯拉发布的Optimus Gen2搭载自研执行器，足部采用铰链式连接并配备力传感器，使得Gen2的行走速度较Gen1提升30%并具备更好的平衡性。2）智能体迭代：大模型赋能交互能力升级。2023年AI大模型的高速发展为人形机器人更优的感知、决策、交互能力提供了技术基础。例如Figure02搭载了与OpenAI合作开发的AI模型，使得对话交互更具实时性、常识推理能力更加到位。向未来展望，我们认为本体与智能体性能的提升仍是未来人形机器人发展的两条主线。

图表：特斯拉Optimus Gen2

资料来源：特斯拉官网，中金公司研究部

图表：Figure02搭载OpenAI大模型

资料来源：Figure.ai官网，中金公司研究部

从各国的研究进展来看，日美发展较早、技术领先，但中国正逐渐缩小与先发国家之间的差距。自2008年开始中国专利申请人数超过其他主要国家，并在2015年之后快速上升。从专利累计受理量数据看，根据人民网研究院数据，截至2022年末，中国已占据40%的份额，居于领先地位。我们认为，伴随着中国工业能力和科研水平的全面进步，中国在机器人领域的竞争身位逐渐由“跟跑”向“陪跑”甚至“领跑”前进。

图表：人形机器人领域各国专利申请人数变化情况以及专利数量占比情况

资料来源：人民网研究院，中金公司研究部

产业现状：政策与产业共振，行业发展按下加速键

政策：各国政府积极前瞻布局

全球各国政府均将发展人形机器人定位于国家战略。我们认为，人形机器人本身集精密制造、运动控制、感知决策等高技术于一体，又可在科研、工业、服务、特种等多场景落地，长期看亦有望缓解领先经济体老龄化压力及较高的生产生活成本，因而受到主要经济体的重视。全球各国纷纷通过完善制度建设、提供资金补贴等方式推动行业发展。

横向对比来看，我们认为中国由于行业起步较晚，短期的政策目标在于实现核心零部件的技术突破，而长期目标在于丰富产业应用和生态；海外的政策旨在前沿技术的攻关以及重要场景的落地（如科研、服务等）。

图表：中国人形机器人重要政策梳理

资料来源：各政府网站，中金公司研究部

产业：竞争主体趋于多元、产品供给日渐丰富

众多科技厂商涌入人形机器人的竞争角逐中。英伟达CEO黄仁勋曾在ITF World 2023半导体大会上表示“人工智能下一个浪潮是具身智能，即能理解、推理并与物理世界互动的智能系统”[3]，鉴于人形机器人较高的技术壁垒以及广阔的应用前景，我们认为具身智能已被业内视为人工智能的下一个“必争之地”。行业竞争不仅限于机器人初创公司，汽车、消费等行业的跨界主体亦凭借自身在技术、市场方面的基础，加入人形机器人的竞争之中。

图表：人形机器人竞争主体一览

资料来源：人形机器人洞察，各公司官网，中金公司研究部

2023年行业新品迭出不穷，2024年领先厂商初探商业化可能。海内外多家厂商如特斯拉、Figure.ai以及宇树、智元、傅利叶等一批国产品牌集中在2023年推出首款人形机器人产品，银河通用、加速进化、星动纪元等厂商纷纷成立，促成行业新品迭出的欣欣向荣之象。我们认为，2023年可谓是人形机器人行业快速发展的一年。

行至2024年，优必选、Apptronik、特斯拉、Figure.ai等公司开始陆续与汽车主机厂展开合作，将人形机器人落地汽车制造场景，初探商业化可能。除了优必选，其余探索商业化的厂商基本为海外厂商，我们认为主要由于海外机器人技术发展较早且劳动力短缺更为明显；尽管如此，鉴于国内厂商正加速技术追赶、积极与下游展开合作，同时背靠中国大工业、大消费市场，我们认为国内厂商的商业化探索有望逐步缩小与海外的差距。

图表：2023-24年全球人形机器人行业动态梳理

注：截至2024年8月18日；资料来源：各公司官网，人形机器人发布，机器人大讲堂，创业邦，中金公司研究部

供给侧：从AI三要素，看具身智能技术发展方向

算法：智能之脑，多模态大模型赋能通用、泛化能力

“具身”特点使具身智能大模型与通用大模型存在显著差异

传统具身智能算法缺乏泛用性。传统具身智能的研究以深度学习范式为主流，通过模仿学习（Imitation learning）或强化学习（Reinforcement learning）技术训练具身系统，使其习得技能。但传统深度学习算法对数据集的依赖程度较高、迁移泛化能力较弱，对于训练数据以外的技能执行起来较为困难（即便是“将方块挪至左上角”变为“挪至右下角”这样的技能迁移）。

大模型的出现为迈向通用人工智能提供契机。自谷歌Transformer神经网络架构发布以来，众多研究者发现基于Transformer的预训练语言模型在非语言类的任务中也能取得不错的效果，具有较强的泛化能力。此后大模型被引入具身智能领域，例如谷歌在2023年发布的PaLM-E模型，即是基于Transformer神经网络开发的具身多模态大语言模型，能够指导机器人实现长时序、one-shot、zero-shot等操作任务。

图表：谷歌PaLM-E指导机器人操作的案例

资料来源：Google《PaLM-E: An Embodied Multimodal Language Model》（2023年），中金公司研究部

考虑到具身智能系统“具身”的特点与其他离身智能系统差异较大，为实现更优的决策规划，我们认为应用于具身智能的大模型相较通用大模型，需要更多地考虑感知的细度与广度、与环境的交互性以及控制的协调性。

► 细颗粒度感知能力。具身智能系统不仅能够准确地识别物体的类别和属性，还要将视觉信息转化为精确的空间坐标，以供机械臂、灵巧手等部位执行精细操作和关节控制。

► 多模态融合，注重感知广度。除文本、图像、音频、视频等较为常见的模态数据外，具身智能还需要接收触觉（如力的反馈、表面材质）、姿态（如空间坐标、位移距离、旋转角度）等信息，以实现对环境更全面和准确的理解。

► 时空多维信息的理解。具身智能算法也需要理解物体的运动轨迹、事件的发展顺序，才能做出及时而准确的决策。

► 环境自适应性。具身智能执行的任务多样、所处的场景多元、面临的环境多变，具备环境适应性是题中之义。

► 交互中学习能力。环境交互是具身智能区别于其他有实体机器人的重要特征，通过与环境的交互，持续学习并更新知识，从而不断提升算法性能。

图表：具身智能在与环境交互中学习

资料来源：卢策吾《行为认知与具身智能》（2022年），中金公司研究部

► 控制的协调性。与通用大模型不同，具身智能算法的最终落脚点是动作行为，因而算法有必要将本体的物理特性和动作能力纳入算法设计。

► 具身智能规模应用后，端侧模型的需求有望提升。由于具身智能需要实时收集数据并实时处理、执行，因而未来在工业制造、家庭陪护等场景落地的话，考虑到响应实时性要求、网络限制以及隐私安全问题，我们认为具身智能算法有望在端侧大规模落地。再考虑到成本以及功耗因素，我们预计端侧具身模型还需通过蒸馏、剪枝等方式做小型化处理，以降低对端侧硬件性能的需求。

从算法切入布局具身智能，科技大厂期望引领智能体迭代

众多科技大厂积极布局具身智能算法，如Meta、谷歌、特斯拉、Wayve、英伟达等均发布了具身智能算法并持续迭代，推动具身智能算法向更优性能迭代。

Meta SAM：2023年3月，Meta发布SAM大模型（Segment anything model），是AI大模型在计算机视觉（CV）领域的延伸，在图像分割、对象识别等方面呈现出较好的性能。

谷歌RT系列模型：2023年10月发布的RT-X由RT-1-X和RT-2-X构成。RT-X-1的平均性能较RT-1提升50%、RT-2-X的泛化能力是RT-2的约3倍，能够成功执行相对位置的移动操作任务以及数据集中没有的动作，泛用性和灵活性得到进一步的提升。

图表：Meta SAM图像分割颗粒度较细

资料来源：Meta SAM官网，中金公司研究部

图表：谷歌RT-X架构示意图

资料来源：谷歌《Open X-Embodiment》（2024年），中金公司研究部

特斯拉FSD：特斯拉FSD v12版本采用端到端的自动驾驶技术，传感器数据通过FSD算法处理后直接输出为车辆行为的控制指令。此外，算法由规则驱动转变为数据驱动，在驶车辆每日源源不断产生的真实行车数据成为FSD重要的训练数据来源，推动FSD性能持续迭代升级。

Wayve Lingo系列模型：2024年4月，Wayve串联自有视觉模型与大语言模型推出Lingo-2，并在公共道路上进行测试。

英伟达Project GR00T：2024年3月，英伟达发布人形机器人通用基础模型Project GR00T。Project GR00T依托边缘计算GPU芯片Jetson Thor以及仿真模拟平台Omniverse Isaac Sim，能够理解自然语言并通过观察来优化动作控制，目前已与1X Technologies、波士顿动力、Figure.ai、宇树科技、小鹏等国内外具身智能厂商展开合作。

图表：英伟达Project GR00T

资料来源：英伟达官网，中金公司研究部

算力：智能之基，向云边端多层次算力体系协同演进

云边端构筑多层次算力体系，应对大数据量、高实时性、多模态要求

云边端算力架构要求云计算中心、边缘计算节点与端侧之间形成高效的协同和通信。在典型的场景中，智能体将采集的感知数据在本地或上传至边缘侧进行处理，并将处理结果上传至云端进一步分析；此外，云计算平台将训练好的模型下发至边端侧，支持智能体的实时决策和控制。

图表：传统的集中式云计算与“云-边-端”协同模式

资料来源：中国联通研究院《算力网络架构与技术体系白皮书》（2020），中金公司研究部

我们认为，具身智能面临多维感知、复杂环境、多样化任务、高交互实时性等挑战，对底层算力基础也提出了差异化要求，具体包括：

► 数据处理需求大：为了适应复杂环境和多样化任务，智能体需要处理海量数据，包括来自多种传感器的视觉、听觉、触觉等信息，并完成智能感知、智能决策、智能控制等任务要求，要求高算力进行数据的分析处理。

► 多模态数据处理：智能体配备了丰富的传感器，接收视觉、听觉、触觉、气味、姿态、位置等环境信息。

► 实时性要求高：具身智能系统需要实时感知和决策，以应对多变的环境以及复杂的任务，要求算力系统具备高速分析处理数据的能力，并及时做出决策及控制。

► 端侧算力需综合考虑性能、功耗、价格等因素：以机器人等为代表的移动终端智能体不具备长时间连接电源的条件，由电池供电，计算性能也受到功耗的限制。此外，考虑到智能体的灵活使用及便捷性，终端算力硬件通常也对体积提出更高的要求。

图表：英伟达Jetson Orin系列性能规格

资料来源：英伟达官网，芯智讯官网，中金公司研究部

► 规模使用后可能需要大量的边缘算力：具身智能系统的感知、决策、控制需要大算力的支持，而终端芯片受限于成本、功耗、体积等因素无法满足所有的算力需求，边缘计算设备成为算力的有效补充，实现对终端设备的算力卸载；云计算中心由于距离终端场景较远，路由及远距离传输导致的时延难以应对实时性要求高的任务，近终端侧的边缘算力成为潜在的必要补充。

图表：具身智能云计算的典型延迟

资料来源：Yiyang Huang等《Corki: Enabling Real-time Embodied AI Robots via Algorithm-Architecture Co-Design》（2024年），中金公司研究部

图表：边缘计算相对于中心云计算在实时性要求高的任务中具有优势

资料来源：腾讯云原生，中金公司研究部

► 计算与通信能力的高度协同耦合：具身智能未来或向复杂系统发展演进，不同智能体之间、同一智能体的不同子模块之间需要信息融合、协同运行，而部分端侧设备的移动性带来的网络拓扑动态变化也对算力网络的组网及编排调度提出了新的挑战，算力与通信能力的高度协同耦合是具身智能系统交互协作的关键。

端侧算力由分布式向集中式演进

具身智能需要具备智能感知、智能决策、运动控制的能力，其中智能决策通常定义为“大脑”功能；运动控制则通常定义为“小脑”功能。主流的大小脑架构包括两种方案：1）x86+AI芯片的分布式方案；2）SoC的集中式处理方案。

► 分布式方案：通过x86工控机+RTLinux软实时+开源EtherCAT协议栈实现运动控制算法，将AI芯片作为大脑实现多模态感知、深度学习和生成式AI，大小脑之间以网络互联。异构方案面对复杂任务时会遇到瓶颈，AI芯片与x86之间数据传输的网络阻塞与通讯非实时同步的问题难以规避，影响机器人的实时响应及手眼协调能力。

► 集中式方案：将CPU与GPU整合至具身智能SoC中，由CPU负责控制、调动，GPU负责运算、处理，两者通过基于实时操作系统上运行的多进程和多线程实现交互，大小脑的协同延迟降低为ns级别（根据高工机器人，分布式方案为ms级），能够提升系统的实时性和响应速度。

数据：智能之源，仿真模拟、数集开源充实数据储备

具身智能的数据具有多模态、时空相关、高维度等特点

和通用大模型数据相比，具身智能的数据具有多模态、时空相关、高维度等特点。

► 多模态性：具身智能涵盖各种复杂的应用场景和交互需求，其数据来源丰富多样。

► 时空相关性：具身智能的数据不仅包含某个时刻的静态信息，还需要反映智能体与环境在时间和空间维度上的动态变化。

► 高维度和复杂性：具身智能体涉及大量不同类型的传感器，作业于复杂环境，产生的数据维度高、结构复杂、具有不同的格式和特征，要将此类异构数据用于具身智能的训练和应用，需要通过有效的特征提取和数据对齐方法从中挖掘有用信息，此过程中往往涉及到复杂的语义理解和转换。

► 数据标注更加困难：对具身智能来说，由于在标注过程中需要考虑到具身智能体的动作、环境的变化以及两者之间的关系等众多因素，准确标注数据的难度提升，数据加工成本或被抬高。

► 环境适应性：具身智能的训练数据应涵盖不同的环境条件和场景，以训练具身智能体适应多样化、充满不确定性的真实物理环境，在不同环境中展现出适应和推广的能力。

► 实时性：部分具身智能的应用场景要求数据能够实时获取和处理，以便具身智能体迅速做出响应和决策。

► 个体差异性：如果是针对人类或其他生物的具身智能研究，还需要考虑个体之间存在的差异，训练数据需涵盖个体差异特征，如身体结构、运动能力、感知偏好等。

► 长序列性：为了捕捉具身智能体随时间推移的连续动作变化和所处环境的长期变化趋势，数据往往以长序列的形式存在，呈现出时间依赖性、连续性、丰富性的特点。

总结来说，具身智能对训练数据提出的上述要求导致数据的采集、处理、标注和利用都面临诸多挑战。从真实世界获取数据的方式主要包括本体采集、动态捕捉、视频学习等，真实采集数据在真实性和可交互性上表现突出，但随着智能体规模的持续扩张，由于通过人类和机器本体采集数据难度大、成本高昂、效率较低，仅依靠真实数据训练具身智能大模型面临多模态有效数据匮乏、泛化性差等问题。

图表：文本、图片、视频、机器人大模型数据对比

资料来源：Coatue《The Path to General-Purpose Robots》（2024年），中金公司研究部

仿真模拟、数据集开源等方法解决数据不足的问题

在解决高质量具身智能数据不足的问题上，我们观察到产业动向主要包括：通过模拟环境合成数据辅助真实世界数据以丰富训练数据来源，以及构建更大规模、更多模态的共享数据集。

► 使用仿真及合成数据能够降低数据收集成本并提高开发效率。合成数据的常见来源是借助大量符合现实世界物理规则的虚拟仿真场景学习技能和策略，后迁移到真实世界（Simulation-to-Real）。与真实采集数据相比，基于仿真环境的合成数据具有采集成本低、采集速度快、可扩展性强、标注准确度高的优点。

► 共建高质量开源数据集，实现数据最大化利用。由于数据获取的高成本、长周期以及隐私安全问题，大部分具身智能研究组织和企业仅限于在某个特定环境中收集数据，数据共享的缺乏导致重复劳动和资源浪费，形成“数据孤岛”。2023年，DeepMind与众多科研机构展开合作，构建了真实机器人开源数据集Open X-Embodiment[4]，包含22个机器人超过100万个轨迹片段，500多项技能、16多万项任务。基于此开源数据集训练的具身智能控制基础模型RT-X，表现出在跨场景、多任务应用中超越此前基于特定场景和数据集下的技能水平。

图表：Open X-Embodiment开源数据集一览

注：（a）数据集包含60个现有数据集，涵盖22种机器人实体；（b）Franka机器人由于拥有最大规模的Franka数据集，视觉场景较多；(c): xArm和Google机器人由于拥有几个大型数据集，贡献了最多的轨迹数量；(d, e): 数据集包含大量技能和常见物体。资料来源：O'Neill, Abigail et al. “Open X-Embodiment: Robotic Learning Datasets and RT-X Models : Open X-Embodiment Collaboration0.” 2024 IEEE International Conference on Robotics and Automation，中金公司研究部

需求侧：落地多场景提升效能；适应劳动力未来新形势

我们认为，发展具身智能对我国具有重要意义。第一，具身智能是人工智能商业化落地的重要抓手。例如在工业场景中出于数据量以及商业保护等考虑，大模型的应用效果差强人意，而具身智能借由物理实体有望直接参与生产活动，加速人工智能的商业化落地。第二，具身智能是新质生产力的重要方向。工信部将人形机器人作为六大未来产业的八个创新标志性产品之一，推动中国产业升级。第三，中国具备广阔市场需求和产业链优势。人形机器人产业有望依靠中国大工业、大消费市场，在技术成熟后实现快速规模落地。第四，发展具身智能有望带动我国工业制造水平的提升。具身智能是多学科交叉的行业，对传感器、电机、减速器、行星滚珠丝杠、计算芯片、软件算法等方面都具有较高要求，目前中国在多数场景下的国产化水平仍然有限，发展具身智能有望推动各类零部件工艺水平的发展。

驱动力 #1：提升社会效能，由专用向通用场景渐次渗透

向终局展望，人形机器人可胜任多元多样的任务场景。根据中金研究院及研究部联合研究发布的《AI经济学》报告，从元任务角度看[5]，人形机器人“具身”的特点使其尤其适合力量型、灵巧型及空间移动导航等体力任务，例如上下料、维修、巡检等。根据我国《体力搬运重量限值》标准，成年男子单次搬运上限为15kg，而业内已有双手载荷达40kg的人形机器人（例如里工D1等），可见理论上人形机器人在体力任务上能够实现较人类更高的效率。同时，其“智能体”特征使其具备人的智能与情感，能够在教培辅导、服务接待、人文关怀等支持型任务中发挥作用，例如教育、讲解导引、养老助残等。

大部分行业都是由多类元任务组合而成的，向终局去看，我们认为人形机器人有望在各个行业找到适合自身落地的应用场景。比如，服务业前台（营业部客户接待）、采矿业（物料挖掘搬运）、水电热气（电力巡检）、看护养老业（康养陪护）、装备制造业（工业制造）、医疗卫生业（手术机器人）、住宿和餐饮业（餐饮服务机器人）等等，不一而足。

图表：人形机器人能够胜任的多元场景

资料来源：中国《机器人分类》标准（GB/T 39405-2020），中金公司研究部

由专用场景向通用场景渐次渗透，逐步向终局场景迈进。我们认为人形机器人的渗透不会一蹴而就，正如当前业内所尝试的应用场景，诸如工业制造、商演主持、接待导览、电力巡检等，均是属于“交互性较弱、标准化较高”的专用场景。随着技术的不断成熟，我们认为人形机器人不仅能够有更自然的交互性能，实现在交互要求更高的公共服务场景以及个人家用场景中的应用；还能提升对复杂场景的应对能力，进而开启在高危、救援、多变环境下的渗透。总体趋势是由专用场景向通用场景渐次渗透，最终实现在全行业各场景的落地。

图表：人形机器人在四类场景中的应用推进节奏

资料来源：创业邦，中金公司研究部

驱动力 #2：填补劳动力缺口，适应未来劳动力结构变化

主要经济体均面临劳动力结构变化的新形势。根据联合国人口司预计，未来10年主要经济体的老龄化人口（65岁以上）占比继续扩大，或全部达到20%以上份额；而劳动力人口（15-64岁）占比均呈现不同程度的下降，在1-3 ppt的降幅之间。我们认为，劳动力结构新形势，一方面会造成劳动力供给紧张，加大企业侧招工的难度；另一方面，老龄化趋势亦会加重社会养老陪护的压力。

新形势推升用工成本，人形机器人有望弥补劳动力缺口、助力企业降本增效。在劳动力供给紧张的新形势中，企业往往会通过提高职工薪酬的方式吸引劳动力，这一点在疫情期间的美国体现得尤为明显。根据中国国家统计局、美国劳工局数据，两国历年的职工薪酬均呈现明显上升，若未来劳动力供给紧张程度进一步上升，我们预计或会对企业成本端造成更大的负担。在技术成熟的前提下，人形机器人具有较高的工作效率，我们认为部署人形机器人以弥补企业用工短缺的难题，是应对未来劳动力结构新形势的可行方法。

驱动力 #3：以点带面，由人形机器人切入拉动产业升级

从工具属性出发，人形机器人是提升生产效率的利器。一台工业机器人能够24小时不间断作业并替代多名工人的工作量，帮助企业降本增效的效果明显。我们认为人形机器人较工业机器人更加灵活，能够胜任的人类任务类型更加多样、落地场景更加丰富，有望帮助企业实现柔性生产，在更大范围上推动生产效率的提高。

从产业链出发，人形机器人的发展能够带动整条产业链的技术升级。人形机器人与工业机器人、汽车共享一部分产业链，核心零部件的技术发展已相对成熟，领先厂商凭借技术优势占据较大份额。但是国产力量仍然相对薄弱。一方面，中国大陆厂商在部分市场中的份额较低；另一方面，在国产份额相对较高的市场中，国产品牌的产品性能较境外品牌仍有一定差距。我们认为，中国要发展人形机器人，不仅要着眼于本体，而且需全产业链同时布局；以终端为抓手，由点及面地带动上游软硬件核心零部件的技术攻关与产业升级。

图表：中国人形机器人零部件厂商竞争格局情况（2023年）

资料来源：觅途咨询，中金公司研究部

市场空间：至2030年中国人形机器人出货量有望达35万台

我们测算中国人形机器人出货量有望在2030年达到35万台，2024-30年CAGR有望达317%；市场空间有望于2030年达581亿元，2024-30年CAGR达259%，保持高速增长态势。向更远期展望，马斯克在2024年股东大会上表示其人形机器人目标年产量在10亿台，占10%以上的市场份额，这意味着马斯克预计在更远期的未来，全球人形机器人销量有望达100亿台，有着充分广阔的想象空间。

图表：2023-30E中国人形机器人出货量预测（中金测算）

资料来源：国家统计局，《中国投入产出表（2020年）》，《中国人口普查年表（2020年）》，中金研究院，高工机器人，中汽协，中金公司研究部

图表：2023-30E中国人形机器人市场空间预测（中金测算）

资料来源：国家统计局，《中国投入产出表（2020年）》，《中国人口普查年表（2020年）》，中金研究院，高工机器人，中汽协，中金公司研究部

风险

► 人工智能技术突破遭遇瓶颈。具身智能对算法、算力、数据的要求更高。具身智能要求算法强调感知的细度与广度、与环境的交互性以及控制的协调性；具身智能算力需要能够快速、实时地处理多模态感知数据；具身智能数据也需要向更大规模、更多模态方向发展。如果算法无法实现对环境的全面感知、理解，无法做出准确合理的运动规划，如果边缘算力无法满足大算力、低时延、低功耗的要求，如果数据无法通过仿真模拟、开源数据集的方式弥补，则会限制具身智能的进一步发展。

► 成本下降不及预期。由于具身智能产业处于发展早期，供应链尚未成熟，并未形成规模效应，因此当前具身智能系统成本高昂，典型的人形机器人产品价格都在几十万元的价位，限制了其进入应用场景的落地。如果未来供应链成熟度不及预期或产品规模量产受阻，则会使得具身智能系统成本居高不下，对其商业化落地产生影响。

► 商业化落地不及预期。如果人工智能技术突破遭遇瓶颈、成本下降不及预期以及下游应用侧对具身智能的拥抱程度不高，则会导致具身智能的商业化落地不及预期，进而影响对本体公司以及上游零部件公司的经营表现。

► 社会伦理风险。具身智能可以在几乎全行业多个任务中落地，对人类就业形成一定替代效果。如果具身智能的应用引发社会就业问题，则会对具身智能系统进一步渗透形成阻碍。

► 隐私安全风险。具身智能需要通过多种传感器实时感知周围环境数据，未来进入家庭场景、特种行业，如果无法解决隐私安全、数据安全的问题，则会对具身智能系统在更多应用场景落地造成影响。

[1]https://www.miit.gov.cn/zwgk/zcwj/wjfb/tz/art/2023/art_48fe01d562644aedb7ea3f4256df8190.html

[2]Rodney, A, Brooks. Intelligence without representation[J]. Artificial Intelligence, 1991.

[3]https://resources.nvidia.com/en-us-industrial-sector-resources/watch-67

[4]https://arxiv.org/pdf/2310.08864

[5]参见《AI联合课题：第三章元任务与AI经济影响分析》，元任务指构成复杂任务的若干按功能划分的、具有场景通用性的任务元素。

文章来源

本文摘自：2024年8月26日已经发布的《具身智能系列：智机融合，人工智能时代的星辰大海》

陈昊分析员 SAC 执证编号：S0080520120009 SFC CE Ref：BQS925

孔杨联系人 SAC 执证编号：S0080122110018

李诗雯分析员 SAC 执证编号：S0080521070008 SFC CE Ref：BRG963

朱镜榆分析员 SAC 执证编号：S0080523070002

郑欣怡分析员 SAC 执证编号：S0080524070006

彭虎分析员 SAC 执证编号：S0080521020001 SFC CE Ref：BRE806

法律声明