机器人能否像人类一样灵活地控制自己的手指,做出各种复杂的动作?比如,能否像人类一样快速地旋转笔?这个问题看似简单,但实际上对于机器人来说是一个巨大的挑战。因为机器人要学习这样的技能,需要有一个合适的奖励函数,来指导机器人不断地尝试和改进。而设计一个好的奖励函数,对于人类开发者来说也是一件困难的事情。
为了解决这个问题,英伟达研究团队开发出了一个新的AI代理,叫作Eureka。Eureka可以利用GPT-4 LLM和生成式AI编写奖励函数,来强化机器人学习各种技能。Eureka不需要给特定的提示或预定义的奖励模板,就可以很好地结合人类的反馈,来修改奖励函数,使其更符合开发者的期望。
Eureka随后会基于训练结果创建一份汇总,其中包括关键统计数据,并指导大型语言模型改进其生成奖励函数的过程。通过这种方式,它教会了各类机器人,包括四足、双足、四旋翼、灵巧手、协作臂等,完成各种不同类型的任务。
Eureka的训练结果表明,Eureka生成的奖励程序在80%以上的任务上优于人类编写的奖励程序,机器人的平均表现提高了50%以上。
英伟达 AI研究部门的高级主管Anima Anandkumar表示,Eureka是一项重大突破,可以通过将生成式学习和强化学习方法相结合,解决强化学习中存在的许多挑战,例如奖励函数。
Anandkumar还表示,Eureka是一种独特的组合,将大型语言模型和 NVIDIA GPU加速的仿真技术相结合,可以实现机器人的灵巧控制,并为艺术家提供一种产生物理逼真动画的新方法。(即更好地控制动画的物理属性,例如物体的形状、重量、运动轨迹等,从而使动画更加逼真和具有现实感。)
此外,英伟达已经在GitHub上发布了Eureka的关键组件和学术论文,工程师可以使用英伟达的Isaac Gym程序运行该软件,这是一种专门设计用于仿真的工具。