大模型如何赋能人形机器人 - 财经资讯(世良情感网)

会议要点

1. 大模型助力机器人逾越

• 大模型在机器人行业的应用潜力巨大，特别是在提升机器人自主智能和多模态感知、认知能力方⾯。

• 人形机器人通过大模型控制各种行为，推动了行业发展；大模型被视为‘⼼灵’，有助于机器人在复杂环境中的决策和执行。

• 大模型对不同类型机器人影响显著，能提⾼机械臂、物流机器人等的泛化能力和执行效率，是通用人⼯智能发展的关键。

2. 大模型促进机器人智能⾰新

• 大模型关键能力：感知融合多模态数据、认知理解含义、生成推理逻辑链、控制精准动作序列

• 大模型前景与挑战：在人形机器人结合应用中有极大潜力，各国机构包括谷歌、英伟达等在自监督训练和具身智能上不断发展

• 国内外机器人大模型竞赛：通过挑战赛推动大模型在多样场景下的实践应用，国内⾼校如清华、复旦等表现突出，证实了大模型结合机器人的有效性

3. 大模型驱动机器人进化论

• 大模型对人形机器人的影响：大模型使机器人能够自主规划动作轨迹，提⾼效率并降低成本，实现了单一任务到⻓链任务的转变，逐步赋予机器人执行复杂任务的能力。

• 谷歌机器人发展方向：谷歌的机器人模型（RT系列）从简单的关节运动规划发展到复杂的多模态数据教育和任务执行能力，未来可能包括双⼿协作等更⾼级操作。

• 英伟达在机器人领域的发展：英伟达的Isaac平台集成多种技术以实现机器人仿真训练，借助其图形计算背景推动机器人在复杂环境中的运动仿真和任务培训。

4. 英伟达人形机器人赋能解析

• 大模型为人形机器人赋能，提供⾼逼真度的仿真环境和物理引擎计算，包括虚拟世界中的机器人和数字人形，并涵盖多种场景（如⼯⼚、咖啡厅）。

• IsaacAI平台由四大组件构成：仿真场景(SMCM)、机器人应用 (IsaacAPP)、算法模型(GEMS)、软件⼯具及硬件对接(Engine)，⽀持机器人的仿真应用和技能训练。

• 英伟达为平台底层硬件计算提供⽀持，通过GPU等硬件产品促进机器人和自动驾驶汽车等领域的发展，并在人形机器人方⾯进行投资，显示其在机器人领域能力打造和未来发展上的布局。

5. 特斯拉人形机器人的软硬实力

• 特斯拉Optimus迭代速度快且超预期，受其软件端优势驱动。

• 人形机器人软硬件成熟度、零件优化及整合能力是核⼼挑战；国内外⼚商均⾯临这些通用难题。

• 国内大模型：主要依赖开源平台，结合本地数据训练。端到端整合能力和软硬件全能性是竞争力的关键。

6. 人形机器人演进与大模型赋能

• 人形机器人依赖⾼算力进行多传感器数据处理，影响运动速度与精细度，对算力和通信技术提出挑战。

• 数据是关键，⽬前机器人训练主要在仿真环境中进行；合成数据技术⽇益发展，未来低成本数据获取⼿段增多，合成数据将成为训练机器人的重要⼿段。

• 打破数据孤岛需公司间合作与平台化技术推动，3D场景的统一格式是潜在解决方案，可能需要业界共同契机来实现，合作与技术⾰新是解决数据孤岛的关键。

纪要来源：【文八股调研】小程序

Q&A

Q：大模型如何影响机器人行业，并给人形机器人带来了哪些变化？

A：大模型对机器人行业的影响主要体现在提升了机器人的智能自主能力。传统深度学习算法在复杂场景下的应用存在局限性，⽽大模型的出现允许机器人在多模态交互、感知认知以及行为指令生成等方⾯实现更加自动化和通用化。特别是结合了多模态数据如语言、视觉的大模型，能够有效提⾼机器人对环境的感知和认知能力，从⽽生成更复杂的行为指令。人形机器人通过大模型的控制，能够执行相⽐传统机器人更丰富和灵活的任务，这推动了人形机器人及整个机器人行业的发展。大模型可以理解为"⼼灵"，为机器人提供决策能力，⽽机器人则作为执行这些决策的自动化设备。

Q：大模型对不同类型的机器人有怎样的影响？

A：大模型对所有类型的机器人都有积极影响。在⼯⼚环境下的机械臂可以通过大模型加快识别不同物体并控制关节运动，提升了机器人的泛化能力和效率。大模型可以替代人⼿进行教学和编程，从感知、决策到运动轨迹的生成都可以自动完成。在物流领域，结合地图和强化学习的大模型可以帮助机器人优化路径规划。对于人形机器人，大模型则更是关键，它提供了通用人⼯智能的能力，⽀持机器人在更多维度的任务中实现自主决策和执行。不同类型的机器人都能通过大模型在各自的模态或多模态上获得性能提升，但也指出这个过程仍在发展中，机器人⾯临的三维实际环境交互远⽐⼆维屏幕算法复杂。

Q：大模型要实现对人形机器人的改变，需要哪些关键能力的提升？

A：⾸先，机器人需要获得多模态的感知能力，这包括通过视觉、语⾳、触觉等，甚至可能是超出人类感知范围的能力，⽐如红外、超声波、或者特定的⽓味检测。大模型要解决的是如何将这些模态融合起来形成对环境的整体感知。其次是提⾼认知层⾯的能力，即不仅能感知物体，还需要理解它们背后的意义和用途。大模型在认知层⾯已展现出强大能力，⽐如对一个事物的用途有⾮常准确的认知。第三是决策和推理能力，能让机器人根据认知进行合适的行为选择。再进一步，生成逻辑思维链，形成动作代码，控制机器人精准的运动，泛化能力则让机器人具备在未经指导的情况下自主学习和执行任务的能力，这对机器人的自主性和适应性至关重要。整体⽽言，感知、决策、运动控制和泛化能力是大模型提升的关键能力。

Q：⽬前全球在机器人大模型领域有哪些主要的研究机构或项⽬？他们的进展如何？

A：在机器人大模型的研究方⾯，谷歌因为transformer模型⽽独占鳌头，他们有很多分布在机器人领域的研究。此外，DeepMind和 Stanford共同的项⽬、英伟达发布的论⽂，以及华裔科学家吉姆范等的⼯作，都在机器人与大模型结合领域表现突出。这些研究机构在探索机器人形态简单化和大模型结合上取得了初步成效，验证了自监督训练原理在结合大模型和机器人上的可行性。国内方⾯，达摩院在与中国计算机学会联合举办的机器人大模型与具身智能挑战赛中展现了实质进展。参与的⾼校用提供的人形机器人平台，在大模型的⽀持下完成了咖啡厅场景中的多任务服务。这些进展代表该领域的实际应用前景，显示出未来机器人可通过大模型来进行更⾼效的自主训练和任务执行。

Q：⽬前有哪些重要的突破成果在大模型在人形机器人领域，以及海外公司如谷歌的大模型进化方向及⻣科RT机器人大模型迭代的区别和未来演进方向？

A：⾸先，RT（robottransformer）模型是指一系列机器人变形器模型。谷歌最初的RT1模型相对简单，主要能完成单一任务，如打开抽屉，运用机械臂和底盘移动以及视觉定位和运动规划算法。大模型使得机器人可以自行计算出最⾼效低成本的动作轨迹。RT2模型则引⼊了更⾼层次的决策能力，能够解决复杂的任务链，例如从抽屉中取出指定物体。这个阶段的模型不仅处理关节运动，还包括⻓链任务和⾼层决策。接下来的演进方向，预计会是RTX模型，将包括多种模态数据的整合，更复杂的机器人设计，以及对双⼿协作操作等能力的开发。谷歌的大模型以简单功能起步，但逐渐向具备更丰富技能和能完成更复杂任务链的方向发展，这将需要大量的数据训练和算法优化。

Q：英伟达在机器人领域的布局情况，IIC平台具体是什么，并就英伟达未来可能的突破性底层⼯具进行预测。

A：英伟达过去以图形计算起家，并在推⼴元宇宙时发挥了积极作用，其GPU计算能力对于图形化环境的仿真至关重要。英伟达推出的 IIC（Isaac）平台主要是一个以数字仿真为基础的机器人训练系统，其内容丰富，包含了速度孪生技术等组件。IIC平台不是一个大模型，⽽是一个集成多种技术的平台，尤其是用于机器人仿真训练的 SXC系统，能够提供详细的架构和作用分析。按照预测，英伟达未来可能会在底层⼯具方⾯进行突破，尤其是在促进复杂场景下的机器人运动能力这一方⾯，可能会包括更⾼级的仿真训练系统的开发，以及更多与双⾜人形机器人相关的技术。

Q：大模型如何赋能人形机器人？

A：NVIDIA之前推出的Omniverse平台能够用于建筑设计以及复杂系统如⼯⼚和汽车的数字孪生组装。Isaac系统为机器人构建了一个仿真平台，包含四个主要组件。⾸先是仿真场景SMCM，这⾥⾯包含各种物体、机器人的模型和数字代表人的数字人。这个场景的逼真度⾼，有相应物理引擎计算能力，能够处理流体、碰撞、运动等物理现象。第⼆个组件是IsaacSDK，它提供了为不同机器人设计的应用程序。第三部分是IsaacGEMS，包括机器人应用所需的各种算法模型，如深度学习视觉算法、激光雷达处理、2D/3D解析和通过强化学习训练的技能。这些基本技能或API能够组合成完成复杂任务的应用程序。第四部分是IsaacEngine，它提供软件开发扩展和配套⼯具，以及与ROS系统的对接。NVIDIA的硬件，包括GPU和RTX系列，是整个平台的底层计算⽀撑。利用这套系统，不管是自动驾驶汽车还是机器人，都能在其中得到训练。结合GPU芯⽚的性能，NVIDIA在人形机器人领域已有投资，对未来的发展很有信⼼，认为结合这些技术，NVIDIA在人形机器人场景中会有很大的发展潜力。

Q：您如何看待特斯拉在人形机器人领域的软件竞争力？

A：特斯拉的人形机器人Optimus的迭代速度相当快，这部分确实展现了他们在软件领域的优势。尽管机器人的步态行⾛和抓取动作明显由软件驱动，但硬件成熟度上的提升没有特别大的⻜跃，像人形机器人这样由众多零件组成的复杂系统需要更⻓的周期来实现迭代。与之相⽐，像transformer算法这样的软件，一旦验证，就能通过不断输⼊数据并借助强大算力快速迭代。英伟达的仿真训练系统和计算平台对特斯拉的人形机器人有架构上的优势，但由于人形机器人要完成的任务远⽐自动驾驶复杂丰富，挑战剧增。特斯拉可能会因为资源和品牌优势发展得更快。

Q：关于国内大模型对人形机器人的应用，您怎么看？

A：华为投资了机器人公司，也在尝试构建平台化和生态系统，但⽬前关于他们的进展还难以预测。到⽬前为⽌，国内模型大多基于开源系统，结合自身数据进行训练。百度、讯⻜等公司在中⽂模型上有显著成就。⽆论如何转用大模型技术于机器人，硬件方⾯仍将是一个新挑战。技术多已开源，主要看各⼚商端到端整合的实力。成功的大模型将需要软件和硬件全领域的强大能力，同时包括训练和虚实结合的生态系统。

Q：在具身智能发展过程中，大模型会如何演化以适应不同的感知和运动需求？

A：未来大模型的发展趋势将包括更多模态和数据的整合，例如加⼊触觉和听觉模型。不光是增强现有的视觉和语言模型，还会提升动作的速度和精细度，这些都是大模型需要演化和匹配进化的方向。

Q：人形机器人在技术和应用方⾯的当前状况是怎样的？大模型如何赋能人形机器人？

A：⽬前，人形机器人还处于实验阶段，各家都在尝试制作demo并探索应用场景。这涉及到运动能力、智能能力和效率的提升，⽐如完成简单⼯作的能力和组装⼯作中的尝试。算法上，主要考虑传感器的帧率、外界感知的数据量、机器人的运动速度与精细度，这些都要求⾜够的算力和通信能力，并且要考虑能耗。到了2024年，人形机器人的开发还是需要软硬件结合和配合以迎合不同的应用场景。"大模型"通过提供算法和数据处理能力，让人形机器人变得更加智能和⾼效，能够更好地在不同的⼯作场景中执行任务。

Q：在人形机器人领域，⽬前和未来扩充数据的低成本方式是什么？如何应对数据孤岛问题？

A：⽬前，机器人训练主要在仿真环境中进行。合成数据的生成方式正在变得更加自动化和便捷，例如通过拍照上传场景并结合技术生成虚拟场景。未来将有更多⼯具来扩展数据，⽐如可能会有3D场景的生成。合成数据可以减少成本，尽管它需要计算资源，但在数字化环境中训练机器人是⾼效和低成本的方向。为了突破数据孤岛的问题，我认为技术上可以通过平台化将物理世界的数字化场景连接在一起，类似于互联⽹。未来可能需要发展契机，⽐如⾼品质的3D游戏场景可能被用于机器人训练。解决数据孤岛问题，不仅仅是技术挑战，更涉及行业和公司间的利益协调，需要有意愿把资源整合起来。

Q：未来人形机器人的迭代和大模型如何进化，及其在具身智能方⾯的演变会如何分阶段发展？

A：具身智能应当属于人⼯智能的范畴，从弱人⼯智能到强人⼯智能，再到超人⼯智能。我个人觉得这三个阶段很清晰，不宜过细划分，因为难以界定具体节点。在硬件限制和训练能力未完全匹配前，人形机器人可能只能完成一些简单⽽不是特别精细的任务。达到了具身智能的同时，实现AGI⽔平，那么从物理实体的⻆度来说，人形机器人将能在思维和行为上与人类相似。这是达到通用智能的标志，⽽现在仍需要通过⻓期训练和持续迭代来不断提升智能机器人的能力。

纪要来源：【文八股调研】小程序