大模型如何赋能人形机器人 - 财经资讯(世良情感网)

Q：大模型如何影响机器人行业，并给人形机器人带来了哪些变化？

A：大模型对机器人行业的影响主要体现在提升了机器人的智能自主能力。传统深度学习算法在复杂场景下的应用存在局限性，而大模型的出现允许机器人在多模态交互、感知认知以及行为指令生成等方面实现更加自动化和通用化。特别是结合了多模态数据如语言、视觉的大模型，能够有效提高机器人对环境的感知和认知能力，从而生成更复杂的行为指令。人形机器人通过大模型的控制，能够执行相比传统机器人更丰富和灵活的任务，这推动了人形机器人及整个机器人行业的发展。大模型可以理解为"心灵" ，为机器人提供决策能力，而机器人则作为执行这些决策的自动化设备。

Q：大模型对不同类型的机器人有怎样的影响？ A：大模型对所有类型的机器人都有积极影响。在工厂环境下的机械臂可以通过大模型加快识别不同物体并控制关节运动，提升了机器人的泛化能力和效率。大模型可以替代人手进行教学和编程，从感知、决策到运动轨迹的生成都可以自动完成。在物流领域，结合地图和强化学习的大模型可以帮助机器人优化路径规划。对于人形机器人，大模型则更是关键，它提供了通用人工智能的能力，支持机器人在更多维度的任务中实现自主决策和执行。不同类型的机器人都能通过大模型在各自的模态或多模态上获得性能提升，但也指出这个过程仍在发展中，机器人面临的三维实际环境交互远比二维屏幕算法复杂。

Q：大模型要实现对人形机器人的改变，需要哪些关键能力的提升？

A：首先，机器人需要获得多模态的感知能力，这包括通过视觉、语音、触觉等，甚至可能是超出人类感知范围的能力，比如红外、超声波、或者特定的气味检测。大模型要解决的是如何将这些模态融合起来形成对环境的整体感知。其次是提高认知层面的能力，即不仅能感知物体，还需要理解它们背后的意义和用途。大模型在认知层面已展现出强大能力，比如对一个事物的用途有非常准确的认知。第三是决策和推理能力，能让机器人根据认知进行合适的行为选择。再进一步，生成逻辑思维链，形成动作代码，控制机器人精准的运动，泛化能力则让机器人具备在未经指导的情况下自主学习和执行任务的能力，这对机器人的自主性和适应性至关重要。整体而言，感知、决策、运动控制和泛化能力是大模型提升的关键能力。

Q：目前全球在机器人大模型领域有哪些主要的研究机构或项目？他们的进展如何？

A：在机器人大模型的研究方面，谷歌因为 transformer 模型而独占鳌头，他们有很多分布在机器人领域的研究。此外，DeepMind 和 Stanford共同的项目、英伟达发布的论文，以及华裔科学家吉姆范等的工作，都在机器人与大模型结合领域表现突出。这些研究机构在探索机器人形态简单化和大模型结合上取得了初步成效，验证了自监督训练原理在结合大模型和机器人上的可行性。国内方面，达摩院在与中国计算机学会联合举办的机器人大模型与具身智能挑战赛中展现了实质进展。参与的高校用提供的人形机器人平台，在大模型的支持下完成了咖啡厅场景中的多任务服务。这些进展代表该领域的实际应用前景，显示出未来机器人

可通过大模型来进行更高效的自主训练和任务执行。

Q：目前有哪些重要的突破成果在大模型在人形机器人领域，以及海外公司如谷歌的大模型进化方向及骨科 RT 机器人大模型送代的区别和未来演进方向？

A：首先，RT（robottransformer）模型是指一系列机器人变形器模型。谷歌最初的 RT1 模型相对简单，主要能完成单一任务，如打开抽屉，运用机械臂和底盘移动以及视觉定位和运动规划算法。大模型使得机器人可以自行计算出最高效低成本的动作轨迹。 RT2 模型则引入了更高层次的决策能力，能够解决复杂的任务链，例如从抽屉中取出指定物体。这个阶段的模型不仅处理关节运动，还包括长链任务和高层决策。接下来的演进方向，预计会是 RTX 模型，将包括多种模态数据的整合，更复杂的机器人设计，以及对双手协作操作等能力的开发。谷歌的大模型以简单功能起步，但逐渐向具备更丰富技能和能完成更复杂任务链的方向发展，这将需要大量的数据训练和算法优化。

Q：英伟达在机器人领域的布局情况，IIC 平台具体是什么，并就英伟达未来可能的突破性底层工具进行预测。

A：英伟达过去以图形计算起家，并在推广元宇宙时发挥了积极作用，其

GPU 计算能力对于图形化环境的仿真至关重要。英伟达推出的 IIC

（Isaac）平台主要是一个以数字仿真为基础的机器人训练系统，其内容丰富，包含了速度孪生技术等组件。 IIC 平台不是一个大模型，而是一个集成多种技术的平台，尤其是用于机器人仿真训练的 SXC 系统，能够

提供详细的架构和作用分析。按照预测，英伟达未来可能会在底层工具方面进行突破，尤其是在促进复杂场景下的机器人运动能力这一方面，可能会包括更高级的仿真训练系统的开发，以及更多与双足人形机器人相关的技术。

Q：大模型如何赋能人形机器人？

A：NVIDIA 之前推出的 Omniverse 平台能够用于建筑设计以及复杂系统如工厂和汽车的数字孪生组装。Isaac 系统为机器人构建了一个仿真平台，包含四个主要组件。首先是仿真场景 SMCM ，这里面包含各种物体、机器人的模型和数字代表人的数字人。这个场景的逼真度高，有相应物理引擎计算能力，能够处理流体、碰撞、运动等物理现象。第二个组件是 IsaacSDK ，它提供了为不同机器人设计的应用程序。第三部分是 IsaacGEMS ，包括机器人应用所需的各种算法模型，如深度学习视觉算法、激光雷达处理、 2D/3D 解析和通过强化学习训练的技能。这些基本技能或 API 能够组合成完成复杂任务的应用程序。第四部分是

IsaacEngine，它提供软件开发扩展和配套工具，以及与 ROS 系统的对接。 NVIDIA 的硬件，包括 GPU 和 RTX 系列，是整个平台的底层计算支撑。利用这套系统，不管是自动驾驶汽车还是机器人，都能在其中得到训练。结合 GPU 芯片的性能， NVIDIA 在人形机器人领域已有投资，对未来的发展很有信心，认为结合这些技术， NVIDIA 在人形机器人场景中会有很大的发展潜力。

Q：您如何看待特斯拉在人形机器人领域的软件竞争力？

A：特斯拉的人形机器人 Optimus 的迭代速度相当快，这部分确实展现了他们在软件领域的优势。尽管机器人的步态行走和抓取动作明显由软件驱动，但硬件成熟度上的提升没有特别大的飞跃，像人形机器人这样由众多零件组成的复杂系统需要更长的周期来实现迭代。与之相比，像

transformer 算法这样的软件，一旦验证，就能通过不断输入数据并借助强大算力快速迭代。英伟达的仿真训练系统和计算平台对特斯拉的人形机器人有架构上的优势，但由于人形机器人要完成的任务远比自动驾驶复杂丰富，挑战剧增。特斯拉可能会因为资源和品牌优势发展得更快。

Q：关于国内大模型对人形机器人的应用，您怎么看？

A ：华为投资了机器人公司，也在尝试构建平台化和生态系统，但目前关于他们的进展还难以预测。到目前为止，国内模型大多基于开源系统，结合自身数据进行训练。百度、讯飞等公司在中文模型上有显著成就。无论如何转用大模型技术于机器人，硬件方面仍将是一个新挑战。技术多已开源，主要看各厂商端到端整合的实力。成功的大模型将需要软件和硬件全领域的强大能力，同时包括训练和虚实结合的生态系统。

Q：在具身智能发展过程中，大模型会如何演化以适应不同的感知和运动需求？

A：未来大模型的发展趋势将包括更多模态和数据的整合，例如加入触觉和听觉模型。不光是增强现有的视觉和语言模型，还会提升动作的速度和精细度，这些都是大模型需要演化和匹配进化的方向。

Q：人形机器人在技术和应用方面的当前状况是怎样的？大模型如何赋能人形机器人？

A：目前，人形机器人还处于实验阶段，各家都在尝试制作 demo 并探索应用场景。这涉及到运动能力、智能能力和效率的提升，比如完成简单工作的能力和组装工作中的尝试。算法上，主要考虑传感器的帧率、外界感知的数据量、机器人的运动速度与精细度，这些都要求足够的算力和通信能力，并且要考虑能耗。到了 2024 年，人形机器人的开发还是需要软硬件结合和配合以迎合不同的应用场景。 "大模型"通过提供算法和数据处理能力，让人形机器人变得更加智能和高效，能够更好地在不同的工作场景中执行任务。

Q：在人形机器人领域，目前和未来扩充数据的低成本方式是什么？如何应对数据孤岛问题？

A：目前，机器人训练主要在仿真环境中进行。合成数据的生成方式正在变得更加自动化和便捷，例如通过拍照上传场景并结合技术生成虚拟场景。未来将有更多工具来扩展数据，比如可能会有 3D 场景的生成。合成数据可以减少成本，尽管它需要计算资源，但在数字化环境中训练机器人是高效和低成本的方向。为了突破数据孤岛的问题，我认为技术上可以通过平台化将物理世界的数字化场景连接在一起，类似于互联网。未来可能需要发展契机，比如高品质的 3D 游戏场景可能被用于机器人训练。解决数据孤岛问题，不仅仅是技术挑战，更涉及行业和公司间的利益协调，需要有意愿把资源整合起来。

Q：未来人形机器人的迭代和大模型如何进化，及其在具身智能方面的演变会如何分阶段发展？

A：具身智能应当属于人工智能的范畴，从弱人工智能到强人工智能，再到超人工智能。我个人觉得这三个阶段很清晰，不宜过细划分，因为难以界定具体节点。在硬件限制和训练能力未完全匹配前，人形机器人可能只能完成一些简单而不是特别精细的任务。达到了具身智能的同时，实现 AGI 水平，那么从物理实体的角度来说，人形机器人将能在思维和行为上与人类相似。这是达到通用智能的标志，而现在仍需要通过长期训练和持续迭代来不断提升智能机器人的能力。

纪要来源：【文八股调研】小程序