MIT开发新方法，无需从头训练机器人即可执行复杂任务

（来源：MIT News）

在经典动画《杰森一家》中，机器人女佣 Rosie 可以轻松地从打扫房间切换到做饭、倒垃圾。然而在现实中，训练一个通用机器人却是极大的挑战。

通常，工程师会为某一特定的机器人和任务收集专门的数据，在一个受控环境中对其进行训练。然而，这种数据收集不仅成本高昂且耗时，并且机器人在陌生环境或新任务下往往难以适应。

为了训练更高效的通用机器人，MIT 的研究人员开发了一种灵活的技术，将来自多种来源的大量异质数据整合到一个系统中，以此来教授机器人多种任务。

这种方法通过对来自不同领域的数据（如仿真数据和实际机器人数据）以及多种模态（如视觉传感器和机械臂位置编码器）进行对齐，将它们转化为一种“通用语言”，使得生成式 AI 模型可以处理。

通过整合大量数据，这一方法可以用于训练机器人执行多种任务，而不必每次都从头开始训练。

这种方法不仅比传统技术更快速、成本更低，而且在模拟和现实实验中，相比从零开始的训练提高了超过 20% 的性能。

“在机器人学领域，大家常说训练数据不足。但在我看来，另一个大问题是数据来自于太多不同的领域、模态和机器人硬件。我们的研究展示了如何将这些数据整合起来训练机器人。”电气工程与计算机科学（EECS）专业的研究生、论文第一作者 Lirui Wang 说道。

Wang 的合作者包括同为 EECS 研究生的 Jialiang Zhao、Meta 研究科学家Xinlei Chen，以及资深作者、EECS 副教授和计算机科学与人工智能实验室（CSAIL）成员 Kaiming He。该研究将在神经信息处理系统会议上展示。

借鉴 LLM

机器人“策略”会接收来自传感器的观测数据，例如摄像头图像或机械臂的速度和位置测量数据，进而指导机器人如何移动、去往何处。

通常，策略通过模仿学习进行训练，即由人类演示操作或远程控制机器人生成数据，再将这些数据输入 AI 模型中进行学习。然而，由于这种方法使用的任务数据量较少，机器人在环境或任务发生变化时往往表现不佳。

为此，Wang 和他的团队借鉴了 GPT-4 等大型语言模型的理念。

这些模型在训练初期使用大量多样化的语言数据进行预训练，随后再通过少量的任务数据进行微调，如此大量的预训练数据使得模型能适应多种任务。

“语言领域中的数据都是句子，而机器人数据的多样性极大。如果想以类似的方式进行预训练，我们就需要不同的架构。”他说道。

机器人的数据形式多样，从摄像头图像到语言指令，再到深度图像。同时，每台机器人在机械上也各不相同，臂数、夹持器和传感器的排列各异，数据收集的环境也千差万别。

MIT 的研究人员因此开发了一种新架构，称为异质预训练变换器（HPT），将这些不同模态和领域的数据统一起来。

他们在架构的核心部分引入了一种名为变换器的机器学习模型，用于处理视觉和本体感受（proprioception）输入。变换器正是大型语言模型的基础。

研究人员将视觉和本体感受数据对齐为一种统一的输入形式，称为“token”，变换器可以处理，每种输入都以相同数量的 token 表示。

接着，变换器将所有输入映射到一个共享空间中，随着数据处理和学习量的增加，逐渐发展为一个大型预训练模型。变换器的规模越大，其表现也越好。

用户只需向 HPT 提供少量关于机器人设计、设置和目标任务的数据，HPT 便能将预训练期间获得的知识转移，学习新的任务。

实现灵活操作

开发 HPT 面临的最大挑战之一是建立用于预训练的庞大数据集，涵盖了 52 个数据集，包含超过 20 万条机器人轨迹，分为四个类别，包括人类示范视频和仿真数据。

研究人员还需要开发一种高效的方法，将来自传感器阵列的原始本体感受信号转化为变换器可处理的数据。

“本体感受对于实现很多灵巧的动作至关重要。由于在我们的架构中 token 数量总是相同，我们赋予本体感受和视觉相同的重要性，”Wang 解释道。

在测试中，HPT 在模拟和现实任务中的机器人表现相比每次从零开始的训练提升了超过 20%。即使任务与预训练数据差异较大，HPT 的性能仍然得到了提升。

“这篇论文为跨多种机器人结构训练单一策略提供了新的方法。这使得能够在多样的数据集上进行训练，并大幅扩大了机器人学习方法的数据集规模。同时，这种方法还能快速适应新的机器人结构，这对于新型机器人设计的不断出现尤为重要。”未参与该研究的卡内基梅隆大学机器人研究所副教授 David Held 说道。

未来，研究人员希望探索数据多样性对 HPT 性能的提升作用，同时计划增强 HPT，使其能够像 GPT-4 和其他大型语言模型一样处理无标注数据。

“我们的梦想是拥有一个通用的机器人‘大脑’，用户无需任何训练就能直接下载使用。虽然我们现在还处在起步阶段，但会继续努力，希望像大型语言模型的突破一样，在机器人策略上取得突破性进展。”他表示。

该研究部分由亚马逊大波士顿技术计划和丰田研究院资助。

原文链接：

https://news.mit.edu/2024/training-general-purpose-robots-faster-better-1028