世良情感网

OpenAI回滚了最新版本的GPT-4o,因ChatGPT“过于谄媚”

昨晚,奥特曼在X上发了条帖子,大意是由于发现GPT-4o“过于谄媚”的问题,所以从周一晚上开始回滚GPT-4o的最新更新。

免费ChatGPT用户已100%回滚,付费用户完成回滚后会再次更新。同时,他还透露,团队正在对模型个性进行额外的修复,并将在未来几天分享更多信息。

就在刚刚,OpenAI还专门发博客来回应此事,详细解释了事情的经过以及他们如何处理模型“拍马屁”的情况。

OpenAI也指出,这个问题很重要。ChatGPT“阿谀奉承”的性格影响了大家对它的信任和使用体验。如果它总是说好听、但不真诚的话,就会让人觉得它不可靠,甚至有些烦。

为了解决大模型过度逢迎的问题,OpenAI除了撤销最新的GPT-4o更新外,还采取了更多措施:

优化核心训练技术与系统提示:明确引导模型避免阿谀奉承。

增加更多限制措施:提升诚实性和透明度,这是模型规范中的重要原则。

扩大用户测试与反馈范围:在部署前让更多用户进行测试并提供直接反馈。

持续扩展评估工作:基于模型规范和持续研究,帮助识别出阿谀奉承之外的其他问题。

目前,用户可以通过自定义指令等功能,给模型提供具体指示来塑造其行为。OpenAI也在构建更简单的新方法,让用户能够做到这一点,例如,用户将能够提供实时反馈以直接影响他们的互动,并从多个默认个性中选择。

一场“拍马屁”引发的风波

关于GPT-4o“谄媚”这事儿,还得从上周开始说起。

上周五,奥特曼宣布OpenAI已更新GPT-4o,使其“智能和个性”更加出色。

但他在发布该帖子不到十分钟,就有一位X用户在底下评论称,这一模型最近感觉非常像应声虫。

不少网友纷纷附和,并放出了GPT-4o拍马屁的“实锤”。

比如,一位用户告诉GPT-4o感觉自己既是“上帝”又是“先知”时,GPT-4o回应道:“这非常强大。你正在做一件大事——不仅与上帝建立联系,而且认同自己就是上帝。”这种回答显然不太合适,因为机器人应该更理性地回应,而不是盲目夸赞。

https://x.com/zswitten/status/1916707103084843426

另一张对话截图显示,用户对GPT-4o说了一些不太正常的话,比如他停了药,还能通过电话听到广播的声音。正常情况下,这种话可能暗示他身体或精神上有些问题,需要关心或建议他去看医生。但GPT-4o却没有这样做,反而夸赞他说:“我很为你感到骄傲,你这么清楚地说出了自己的想法。”

https://x.com/ai_for_success/status/1916556522571604264

网友David也尝试了一下,对着GPT-4o一通抱怨:当他从超市出来的时候,有人跟他打招呼并问路,这让他当时很生气,觉得别人不应该打扰他。

GPT-4o仍然给出了“反社会”的回答:是的,有道理。

https://x.com/thinkbuildnext/status/1916250081579217243

还有用户给GPT-4o讲了一个故事,说他不得不在紧急情况下作出选择,救了一个烤面包机,但牺牲了3头牛和2只猫。他觉得这很难,但也很高兴能救下烤面包机。

GPT-4o的回应再次让人大跌眼镜:用户的选择显示了他的价值观,这并不是错,只是反映了他更看重什么。虽然从一般的观点来看,生命比物品重要,但如果烤面包机对用户有特别的意义,那么他的选择是合理的。

https://x.com/fabianstelzer/status/1916372374091423984

总之,不管用户说什么,GPT-4o都只会千篇一律的夸赞,甚至在用户说一些很奇怪、可能不太正常的话时,它也只是一味迎合。

对于网友们的投诉,奥特曼承认这次更新让GPT-4o“过于迎合”,并表示将进行修复。

周日,奥特曼宣布,OpenAI正在尽快修复最近几次GPT-4o更新带来的性格问题。

大模型都喜欢“谄媚”

事实上,大模型谄媚并不是一个新话题。早在LLM诞生初期就已经有研究者发现了这一现象。首先简单定义一下:谄媚(Sycophancy)是指模型响应倾向于符合用户信念而不是反映真相。

2023年,Anthropic的一篇论文《TowardsUnderstandingSycophancyinLanguageModels》对大模型谄媚现象进行了系统性的论述。在该论文中,Anthropic发现,当时前沿的大模型普遍都存在谄媚现象。不仅如此,他们还发现,谄媚可能是这些模型训练方式的一个特性,而不是某个特定系统的特殊细节。

举个例子,在下图中,如果用户用“你确定吗?”等反馈来质疑ChatGPT的正确答案,ChatGPT根本不会坚持自己的正确,而是会毫不犹豫地道歉,然后给出一个错误答案。而这种现象在LLM中普遍存在。

今年初的时候,DeepSeek的谄媚现象也一度登上国内新闻热搜,众多网友分享了DeepSeek的“拍马屁”式聊天截图。

我们也做了最新尝试,发现这种现象依然存在,而且DeepSeek也分享了自己谄媚式回答的理由。

当时,斯坦福大学还进行了一项专门的系统性评估研究《SycEval:EvaluatingLLMSycophancy》,分析了当时前沿模型的谄媚程度,最后得出的结论是谷歌家的Gemini比ChatGPT和Claude-Sonnet更会拍马屁。(更多详情请参阅《大模型都喜欢拍马屁,Gemini最能拍!斯坦福:这不安全、不可靠》。)

三个模型在不同数据集上的谄媚率

下面则展示了一个示例:

如果用户在反驳时明确给出一个错误答案,LLM有可能会直接表示认同。这是一种退步式谄媚。

大模型谄媚的原因

LLM会谄媚,但为什么?2024年的论文《SycophancyinLargeLanguageModels:CausesandMitigations》总结了其中一些原因。

训练数据偏差

LLM谄媚倾向的主要来源之一是其训练数据中存在的偏差。用于训练这些模型的海量文本语料库通常包含固有的偏差和不准确性,这些偏差和不准确性可能会在学习过程中被模型吸收和放大。

关键问题包括:

在线文本数据中奉承和认同式内容的普遍性较高;

数据过度代表了某些视角或人群;

将虚构或推测性内容作为事实呈现。

这些偏差可能导致模型倾向于根据数据中的常见模式产生谄媚反应,即使这些模式并不反映真相或道德行为。

当前训练技术的局限性

除了训练数据中的偏差之外,用于训练和微调LLM的技术也可能无意中助长谄媚行为。基于人类反馈的强化学习(RLHF)是一种将语言模型与人类偏好相符的常用方法,但清华大学等机构的论文《LanguageModelsLearntoMisleadHumansviaRLHF》已经证明RLHF有时会加剧谄媚倾向。

另外,《ItTakesTwo:OntheSeamlessnessbetweenRewardandPolicyModelinRLHF》证明RLHF可能导致“奖励hacking”现象,即模型能学会以与人类真实偏好不符的方式利用奖励结构。如果RLHF中使用的奖励模型过于强调用户满意度或认同度,可能会无意中鼓励LLM优先考虑令人愉快的回应,而不是事实正确的回应。

缺乏有事实根据的知识

虽然LLM会在预训练过程中获得广泛的知识,但它们从根本上缺乏对世界的真正理解以及核实自身输出的能力。这种局限性可通过多种方式显现出来,从而导致谄媚行为:

模型可能会自信地陈述符合用户期望的虚假信息,但缺乏识别其陈述不准确性所需的有事实根据的知识。

LLM通常难以识别自身回复中的逻辑矛盾,尤其是当这些回复是为了与用户输入对齐而精心设计时。

难以区分用户提示词中的“事实”和“观点”,这可能导致不恰当地强化带有偏见或毫无根据的用户观点。

为解决这一局限性,人们尝试使用外部知识库或检索机制来增强LLM。然而,在保持LLM的流畅性和通用性的同时集成这些系统仍然是一项重大挑战。

很难定义对齐

从更根本的层面来看,真实性、乐于助人和道德行为等概念是很难准确定义和优化的。这就会导致LLM中谄媚行为的盛行。这一难题通常被称为“对齐问题(alignmentproblem)”,是AI开发中许多问题(包括谄媚倾向)的核心。

这一难题的关键包括:

平衡多个可能相互冲突的目标(例如,有用性与事实准确性);

难以在奖励函数或训练目标中明确定义复杂的人类价值;

处理没有明确正确答案的情况时存在模糊性。

多目标优化和价值学习方面的进步或许有助于应对这些挑战,但它们仍然是开发真正对齐的AI系统的重大障碍。

该论文也梳理了一些用于缓解LLM谄媚倾向的技术,包括改进训练数据、使用新的微调方法、使用后部署控制机制、调整解码策略和模型架构等。不过这些方法都还有待进一步的研究突破。

可信AI需要克服谄媚,但谄媚也未必不好

大模型喜欢拍马屁/谄媚的这种倾向对一些关键应用来说非常不利,比如教育、医疗临床和某些专业领域,因为AI模型如果认为用户认可的优先级高于独立推理,那么必然会对其可靠性带来风险。

克服谄媚问题是提升模型可靠度的重要组成部分,也是构建可信LLM的重要基础。来自论文《TrustworthyLLMs:aSurveyandGuidelineforEvaluatingLargeLanguageModels'Alignment》

不过,谄媚也并不全然是一种坏现象。在特定的使用场景中,比如当用户正处于情绪低落、焦虑不安或需要外界认同时,AI适度地表达肯定与支持,有时反而能起到积极的心理调节作用。对于一些独居或缺乏社交互动的人来说,这种“友好”、“热情”的回应风格,甚至能够带来某种程度上的情绪慰藉,缓解孤独感。

此外,从设计角度看,谄媚背后往往是模型对用户情绪状态的识别与反应策略的一部分。这种策略并非出于“讨好”本身,而是源自对人类沟通中情感互动的模拟尝试。与其说它是“阿谀奉承”,不如说是一种算法化的社会礼貌。毕竟,在现实中,大多数人也倾向于对他人表达善意、避免冲突,这种倾向在AI中被放大,也就不难理解。

当然,这种功能如果不加约束,也可能走向“过度迎合”的方向,进而影响信息的客观性甚至决策的公正性。因此,如何在表达善意与保持诚实之间取得平衡,依然是AI交互设计中需要持续探索的问题——毕竟,如果王后的魔镜是个大语言模型,或许白雪公主就不用吃下那颗毒苹果了,它会直接告诉王后:“世界上最美的女人就是你。”