据报道,谷歌DeepMind现在已经能够训练微型机器人在足球场上来一场比赛。近日,有一篇新论文发表在《科学机器人》杂志上,研究人员详细介绍了他们最近为适应称为深度强化学习(深度RL)的机器学习子集而做出的努力,以向双足机器人教授这项运动的简化版本。该团队指出,虽然过去类似的实验创造了极其敏捷的四足机器人,但对两足人形机器进行的工作要少得多。但机器人运球、防守和射门的新镜头展示了教练深度强化学习对于人形机器的作用有多大。
虽然DeepMind更多适用于气候预测和材料工程等大型任务,但它也可以在国际象棋、围棋甚至星际争霸 II等游戏中彻底击败人类竞争对手。所有这些战略演习并不需要复杂的身体运动和协调。不过,DeepMind现在能够训练微型机器人在足球场上摆好姿势。
为了制作微型“梅西”,工程师首先在计算机模拟中开发并训练了两项深度强化学习技能:从地面站起来的能力以及如何对抗未经训练的对手进球的能力。从那里开始,他们通过组合这些技能组,然后将它们与自己的部分训练副本随机配对,实际上训练了自己的系统进行完整的一对一足球比赛。
研究人员在论文简介中写道:“因此,在第二阶段,智能体学会了结合以前学到的技能,将其改进为完整的足球任务,并预测对手的行为,代理在所有这些行为之间流畅地转换。”得益于深度强化学习框架,由DeepMind驱动的智能体很快就学会了改进现有能力,包括如何踢足球、射门、盖帽,甚至利用身体作为盾牌来防御进攻对手的球门。
在一系列利用深度强化学习训练的机器人进行的一对一比赛中,两名机械运动员行走、转身、踢腿和直立的速度比工程师提供的脚本化技能基准更快。这些改进也不是微不足道的——与不可适应的脚本基线相比,机器人行走速度快了181%,转身速度快了302%,踢腿速度快了34%,跌倒后站起来的时间缩短了63%。更重要的是,经过深度强化学习训练的机器人还表现出了新的突发行为,例如用脚旋转和旋转。否则的话,这样的行动将极具挑战性。
在由DeepMind驱动的机器人进入RoboCup之前,还有一些工作要做。对于这些初步测试,研究人员完全依赖基于模拟的深度强化学习训练,然后再将信息传输到物理机器人。未来,工程师希望将虚拟和实时强化训练结合起来用于他们的机器人。他们还希望扩大机器人的规模,但这需要更多的实验和微调。
该团队认为,在足球以及许多其他任务中使用类似的深度强化学习方法可以进一步提高双足机器人的运动和实时适应能力。