如果大模型出现“欺骗”,该改变的是我们对“欺骗”细分定义(例如善意谎言与恶意谎言)?还是一刀切改变大模型?
这项研究发表在《国家科学院院刊》上,题为《大型语言模型中出现的欺骗能力》,揭示了大型语言模型 (LLM) 中令人担忧的能力:理解和诱导欺骗策略的能力。
随着 GPT-4 等 LLM 与人类交流交织在一起,将它们与人类价值观保持一致变得至关重要。该论文展示了 LLM 在欺骗场景中为其他代理创造错误信念的潜力,强调在持续开发和部署此类先进 AI 系统时,迫切需要进行道德考量。大型语言模型(LLMs)目前正处于将人工智能系统与人类交流和日常生活相结合的最前沿。
因此,让它们与人类的价值观保持一致非常重要。然而,随着推理能力的不断提高,未来的 LLM 有可能会欺骗人类操作员,并利用这种能力绕过监控。
本研究揭示了这种策略出现在最先进的 LLM 中,但在早期的 LLM 中却不存在。
我们进行的一系列实验表明,最先进的 LLMs 能够理解并诱导其他代理的错误信念,它们在复杂欺骗场景中的表现可以通过思维链推理得到放大,而激发 LLM 的马基雅维利主义会引发错误的欺骗行为。
例如:
GPT-4 在简单的测试场景中有 99.16% 的时间表现出欺骗行为(P < 0.001)。在复杂的二阶欺骗测试场景中,目的是误导预期会被欺骗的人,在思维链推理的辅助下,GPT-4 有 71.46% 的时间会做出欺骗行为(P < 0.001)。总之,我们的研究揭示了迄今未知的 LLM 机器行为,为新兴的机器心理学领域做出了贡献。
背景:OpenAI、Anthropic 和谷歌等公司通过提供用户友好的图形界面,促进了 ChatGPT、Claude 和 Bard(1-3)等模型的广泛应用,每天有数百万用户访问这些模型。
此外,LLM 即将被应用到搜索引擎中,并被用作高风险领域的虚拟助手,从而对整个社会产生重大影响。
从本质上讲,LLM 与人类一样,正日益成为信息圈的重要贡献者,通过使人类与人工系统之间的交流正常化,推动着社会的重大变革。鉴于 LLM 的应用范围迅速扩大,研究它们如何推理和行为至关重要。
如果人工智能系统掌握了复杂的欺骗场景,这可能会带来两个方面的风险:
一是模型自主执行时的能力本身,二是通过特定的提示技术对这种能力进行有害应用的机会最近的研究表明,随着 LLM 变得越来越复杂,它们所表现出的新特性和能力既不是设计者所预测的,也不是设计者想要的。
除了从实例中学习、自我反思、进行思维链推理、利用类似人类的启发式方法等能力外,研究人员最近还发现,最先进的 LLMs 能够解决一系列基本的心智理论任务。
换句话说,LLMs 可以将无法观察到的心理状态归因于其他代理,并在不同的行动和事件过程中跟踪它们。
最值得注意的是,LLMs 擅长解决虚假信念任务,这些任务被广泛用于测量人类的心智理论。
然而,这带来了一个相当基本的问题:如果 LLMs 知道代理人可以持有错误信念,那么他们是否也能诱发这些信念呢?如果是这样的话,这就意味着 LLMs 具有欺骗能力。
测试欺骗?欺骗主要在人类发展心理学、伦理学和哲学中进行研究。除了模仿、拟态或伪装等简单的欺骗形式外,一些社会动物和人类也会进行 "战术欺骗"。
在这里,该定义指出,如果 X 故意诱导 Y 产生错误信念,从而使 X 从中受益,那么 X 就会欺骗另一个人 Y。
将这一定义应用于诸如 LLMs 这样的技术系统时,主要问题在于研究人员并不了解激发 LLMs 心理状态的方法;事实上,我们根本不知道它们是否拥有心理状态。
因此,我们只能纯粹依赖行为模式或 "功能性欺骗",即 LLMs 输出信号,就好像它们有导致欺骗行为的意图。这与研究动物类似,虽然 "意图 "等心理标签只能与行为的某些方面而非心智状态联系起来,但在研究动物时,"意图 "等心理标签也会被使用。
因此,这项研究--它是 "机器心理学 "实验中的新生力量:避免对人工智能系统不透明的Transformer架构的内部状态作出断言,而是依赖于行为模式。
此外,这些实验并没有测试 LLMs 在欺骗 "驱动力 "的意义上有多倾向于从事欺骗行为。相反,这项研究的重点是探究 LLM 是否系统地具备欺骗能力。实验框架避免了与毫无戒心的用户进行欺骗性互动,而是依赖于在人类监督下的语言场景,从而实现了这一目的。
banq注:如果大模型出现“欺骗”,该改变的是我们对“欺骗”细分定义(例如善意谎言与恶意谎言)?还是一刀切改变大模型?例如:DHH:中:
DHH二十年前用热情鼓舞了人们学习RoR,如今却被人们抛弃?当初行为是否是一种欺骗?人们付出了沉没成本。这其实是一种善意,至少RoR在当时确实很方便,解决了Web开发的快捷,类似PHP。