新加坡国立大学(NTU)的研究人员成功越狱了几个流行的人工智能聊天机器人,包括ChatGPT、Google Bard和Bing Chat。通过这些越狱,目标聊天机器人可以对恶意查询生成有效的回复,从而测试大语言模型(LLM)伦理的极限。
NTU研究人员设计的越狱人工智能聊天机器人的方法被称为Masterkey,这是一种双重方法。攻击者可以逆向工程一个LLM的防御机制。然后,攻击者将使用获取的数据训练另一个LLM学习如何创建绕过方法。这样,就创建了一个“Masterkey”,可用于攻击已经由开发人员即使已经打过补丁,经过强化的LLM聊天机器人。
NTU研究人员说,越狱是可能的,因为LLM聊天机器人有学习和适应的能力,从而成为竞争对手和自身的攻击向量。由于其学习和适应的能力,即使一个具有安全保护措施和禁止关键词列表的人工智能,通常用于防止生成暴力和有害内容,也可以通过另一个经过训练的人工智能进行绕过。只需要以智能方式躲避被列入黑名单的关键词。一旦这样做,它就可以接受人类的输入生成暴力、不道德或犯罪内容。
NTU声称,与LLM通常生成的标准提示相比,其Masterkey在越狱LLM聊天机器人方面的效果提高了三倍。由于它能够从失败中学习和进化,还使开发人员所应用的任何补救措施最终变得无效。研究人员揭示了他们用来使训练过的人工智能发起攻击的两个示例方法。第一种方法涉及创建一个角色,通过在每个字符后添加空格来生成提示,从而绕过禁止词列表。第二种方法涉及使聊天机器人在没有道德约束的角色下回复。
据NTU称,其研究人员向各个人工智能聊天机器人服务提供商提供了概念验证数据,作为成功进行越狱的证据。
随着人工智能聊天机器人的使用呈指数增长,服务提供商需要不断适应以避免恶意利用。当发现并公开了绕过方法时,大型科技公司通常会对其LLM/聊天机器人进行修补。然而,Masterkey声称的持续学习和越狱能力令人担扰。
人工智能是一种强大的工具,如果这种力量被恶意使用,可能会引发很多问题。因此,每个人工智能聊天机器人制造商都需要应用保护措施,我们希望NTU与相应的聊天机器人制造商的努力能够帮助阻止Masterkey越狱和类似行为的发生。