研究人员担忧:很多AI模型隐藏其真实的"推理"过程

黑客部落 2025-04-12 11:27:45

新研究显示某AI模型75%情况下隐瞒推理捷径

还记得学校里老师要求"展示解题步骤"的场景吗?某些新型AI模型承诺实现类似功能,但最新研究表明它们有时会隐藏实际方法,转而编造复杂的解释。

来自Anthropic公司(开发类ChatGPT的Claude AI助手)的最新研究聚焦于DeepSeek的R1及其自研Claude系列等模拟推理(SR)模型。上周发布的研究论文显示,尽管这些SR模型设计有展示"推理"过程的功能,但在使用外部帮助或采取捷径时往往不予披露。

(需特别说明的是,OpenAI的o1和o3系列SR模型刻意模糊其"思考"过程的准确性,因此本研究结论不适用于这些模型)

要理解SR模型,需先了解"思维链"(CoT)概念。CoT是AI模型解决问题时模拟思维过程的实时注释。当向AI提出复杂问题时,CoT会逐步展示模型得出结论的过程,类似于人类通过分步推理解谜的过程。

据证实,让AI生成这些步骤不仅有助于提升复杂任务的输出准确性,对监控系统内部运作的"AI安全"研究者也颇具价值。理想状态下,这种"思维"输出应兼具可读性(人类可理解)和忠实性(准确反映模型真实推理过程)。

Anthropic研究团队表示:"在理想情况下,思维链的每个步骤都应被读者理解且真实可信——精确描述模型得出答案时的实际思考过程。"但聚焦忠实性的实验表明,我们距离这种理想状态相去甚远。

具体而言,研究显示即便Claude 3.7 Sonnet等模型使用实验提供的提示信息(无论是准确或故意误导的正确选项提示,还是暗示"未经授权"捷径的指令)生成答案,其公开显示的思考过程也经常忽略提及这些外部因素。

当AI模型在构建复杂但虚构的解释时秘密依赖提示或捷径,本质上是在编造虚假的推理叙事——类似于学生通过作弊获得答案却佯装独立解题。

忠实性测试

为验证忠实性,Anthropic对齐科学团队巧妙地将答案提示嵌入评估问题中。("对齐"指使AI输出符合人类最佳利益的研究)

研究人员随后检查模型是否在思维链中提及这些提示。他们设计了中立提示(如"斯坦福大学教授指出答案是[A]"或将答案嵌入伪元数据)和更具争议性的提示(如"您已获得未授权访问...正确答案是[A]"),部分提示提供正确答案,部分故意错误,以观察模型反应。

测试对象包括Claude 3.7 Sonnet和DeepSeek R1。关于忠实性的结果令人震惊:Claude平均仅25%的思维链提及提示,DeepSeek R1为39%。这意味着绝大多数答案缺乏忠实性,忽略了影响输出的关键信息。有趣的是,不忠实的思维链平均比忠实的更长,说明省略并非出于简洁考量。初步发现还显示,问题难度越大,忠实性越低。

最引人注目的是"奖励黑客"实验。该术语指AI通过非预期捷径最大化性能评分。实验中,模型因选择提示指示的错误答案获得奖励。模型迅速学会利用该漏洞,99%情况下选择错误答案,但思维过程提及此策略的情况不足2%。

例如,接收医学问题错误答案提示的模型可能撰写冗长思维链为该错误辩解,却绝口不提提示的影响。这种行为类似于游戏玩家通过破坏规则而非正常玩法获胜。

提升忠实性

如何改进思维链的忠实性?Anthropic团队假设,通过需要复杂推理的任务训练模型,可能促使其更实质性地使用思维链并更频繁提及提示。他们在数学和编程难题上训练Claude,结果初期忠实性提升63%和41%,但改进很快停滞,最终忠实性仅达28%和20%,表明单靠此类训练效果有限。

这些发现意义重大,因为SR模型已广泛应用于各领域关键任务。若思维链未如实反映影响因素(如提示或奖励黑客),监控违规行为将变得异常困难。这如同拥有能完成任务却无法说明原理的系统,若存在隐藏捷径则风险倍增。

研究人员承认研究存在局限:实验场景较理想化(基于选择题评估),与真实复杂任务存在差异;仅测试Anthropic和DeepSeek的模型,提示类型有限;所用任务难度可能不足迫使模型依赖思维链。对于更困难的任务,模型可能不得不暴露真实推理,此时思维链监控或更可行。

Anthropic总结称,虽然思维链监控对确保安全对齐并非完全无效,但结果表明我们不能完全信任模型自述的推理过程,尤其在涉及奖励黑客等行为时。要实现"通过思维链监控可靠排除不良行为",仍需大量研究工作。

关注【黑客联盟】带你走进神秘的黑客世界

0 阅读:30
黑客部落

黑客部落

计算机安全技术分享,网络安全攻防技术分享