想象一下,你在学开车的时候,旁边坐着一个教练,他不停地给你指导:转弯时说“慢点”,停车时喊“踩刹车”。随着时间的积累,这些建议帮你学会了开车。现在,想象一下,如果我们用类似的方法来教人工智能(AI)做事,会怎样呢?
通常,AI是通过大量的数据和模拟来学习的,而不是像人类教练那样提供实时反馈。但是,杜克大学和陆军研究实验室的研究人员开发了一个新平台,叫做GUIDE,它可以让AI像人类一样学习复杂任务。这个平台将在12月9日至15日在加拿大温哥华举行的NeurIPS 2024会议上展示。
陈博远(音)教授,杜克大学的一位专家,解释说:“对于AI来说,基于有限的信息快速做出决策仍然是个挑战。”他也是杜克通用机器人实验室的主任。“我们的目标是通过实时的人工反馈来弥补这个差距。”
GUIDE允许人类实时观察AI的行为,并提供细致的反馈。就像一个驾驶教练不仅仅告诉你“左”或“右”,而是给出详细的指导来帮助你逐步改进。
在GUIDE的首次研究中,AI学习了如何玩捉迷藏。游戏中有两个甲虫形状的玩家,一个红色,一个绿色。红色玩家由AI控制,而人类训练员会对其策略提供反馈。与之前只能提供“好”、“坏”或“中性”反馈的方法不同,GUIDE允许人类通过鼠标悬停在一个梯度刻度上来提供实时反馈。
这项实验有50名成年参与者,是同类研究中规模最大的。研究人员发现,只需要10分钟的人工反馈,就能显著提高AI的性能,成功率比现有的人工指导强化学习方法高出30%。
研究人员还发现,人类训练师只需要很短的时间就能提供有效的反馈。他们根据参与者的反馈创建了一个模拟人类训练师的人工智能,这样AI就可以在人类不再提供帮助后继续学习。陈教授说:“虽然一个人可能不擅长某项任务,但判断自己是否进步并不难。”
GUIDE还探索了人类训练员之间的个体差异。认知测试表明,某些能力,如空间推理和快速决策,显著影响了一个人引导AI的有效性。这些发现为未来的人机团队提供了有趣的可能性。
陈教授表示:“随着AI技术越来越普及,设计出直观且日常用户可访问的系统至关重要。GUIDE为更智能、响应更快的AI铺平了道路,使AI能在动态和不可预测的环境中自主运行。”
该团队希望未来的研究能结合语言、面部表情、手势等多种通信信号,为AI创建一个更全面、更直观的框架,以便从人类互动中学习。他们的工作是构建下一代智能系统的一部分,这些系统将与人类合作解决单独的AI或人类无法解决的任务。