英伟达研究团队开发出能教机器人复杂技能的AI代理Eureka

机器人能否像人类一样灵活地控制自己的手指，做出各种复杂的动作？比如，能否像人类一样快速地旋转笔？这个问题看似简单，但实际上对于机器人来说是一个巨大的挑战。因为机器人要学习这样的技能，需要有一个合适的奖励函数，来指导机器人不断地尝试和改进。而设计一个好的奖励函数，对于人类开发者来说也是一件困难的事情。

为了解决这个问题，英伟达研究团队开发出了一个新的AI代理，叫作Eureka。Eureka可以利用GPT-4 LLM和生成式AI编写奖励函数，来强化机器人学习各种技能。Eureka不需要给特定的提示或预定义的奖励模板，就可以很好地结合人类的反馈，来修改奖励函数，使其更符合开发者的期望。

Eureka随后会基于训练结果创建一份汇总，其中包括关键统计数据，并指导大型语言模型改进其生成奖励函数的过程。通过这种方式，它教会了各类机器人，包括四足、双足、四旋翼、灵巧手、协作臂等，完成各种不同类型的任务。

Eureka的训练结果表明，Eureka生成的奖励程序在80%以上的任务上优于人类编写的奖励程序，机器人的平均表现提高了50%以上。

英伟达 AI研究部门的高级主管Anima Anandkumar表示，Eureka是一项重大突破，可以通过将生成式学习和强化学习方法相结合，解决强化学习中存在的许多挑战，例如奖励函数。

Anandkumar还表示，Eureka是一种独特的组合，将大型语言模型和 NVIDIA GPU加速的仿真技术相结合，可以实现机器人的灵巧控制，并为艺术家提供一种产生物理逼真动画的新方法。（即更好地控制动画的物理属性，例如物体的形状、重量、运动轨迹等，从而使动画更加逼真和具有现实感。）

此外，英伟达已经在GitHub上发布了Eureka的关键组件和学术论文，工程师可以使用英伟达的Isaac Gym程序运行该软件，这是一种专门设计用于仿真的工具。