揭发问题反遭报复？AI行业内部举报机制困境

（来源：MIT Technology Review）

近年来，科技公司不断推出更先进的 AI 模型，而监管机构屡屡措手不及。可以预见，实验室即将发布的新模型将带来新的监管挑战。这只是时间问题。例如，OpenAI 可能在几周内发布 ChatGPT-5，这款模型有望进一步提升 AI 的能力。目前来看，几乎没有任何力量能够延缓或阻止那些可能带来极大风险的模型的发布。

在模型发布之前进行测试是减少风险的常见方法，这有助于监管机构权衡利弊，甚至可能阻止那些被认为过于危险的模型发布。然而，当前的测试准确性和全面性仍然不尽如人意。AI 模型有时会故意隐藏自己的能力，避免引发安全问题。而现有的评估也难以全面揭示某个模型的所有潜在风险。此外，测试的范围有限，无法发现所有值得深入调查的隐患。还有谁来进行测试、测试人员的偏见如何影响结果等问题。因此，评估必须与其他治理工具相结合。

其中一个可能的工具是实验室内部的举报机制。理想状态下，员工应该能够定期、全面地表达他们对 AI 安全的担忧，并相信这些担忧能够得到有效处理。然而，越来越多的证据表明，在 AI 实验室中，公开批评不仅未能得到鼓励，反而变得更加稀少。仅三个月前，13 名 OpenAI 及其他实验室的前任和现任员工联名发表公开信，表示如果他们试图揭露不合规但不违法的公司行为，可能会遭到报复。

如何发出警报

理论上，外部举报者保护机制可以在发现 AI 风险方面发挥重要作用。它们能够保护因披露公司问题而被解雇的员工，并弥补内部举报机制的不足。几乎所有州都有一项公共政策例外，即员工如果因揭发不安全或非法的公司行为而遭报复，仍可以寻求法律补救。然而，在实际操作中，这一例外条款对员工的保护非常有限。在举报案件中，法官往往偏向雇主。尤其是在 AI 领域，由于社会尚未就 AI 开发和部署的安全标准达成共识，AI 实验室在此类诉讼中的胜诉机会极大。

这些问题解释了为什么上述 13 名 AI 工作者，包括前 OpenAI 员工 William Saunders，呼吁设立一种新的“警示权”。他们建议公司应为员工提供匿名途径，让员工可以向实验室董事会、监管机构或由行业专家组成的独立第三方报告安全相关的担忧。虽然具体细节尚未敲定，但这一流程可能是一个正式的、程序化的机制。董事会、监管机构和第三方都需记录报告，并可能展开调查，后续的会议和听证也可能是这一流程的一部分。然而，按照 Saunders 的说法，AI 工作者真正需要的可能是另外一种方式。

Saunders 在《Big Technology》播客中描述了他理想中的安全担忧分享流程。他并没有强调正式渠道，而是希望有一个中间的、非正式的步骤。他希望能够先获得中立专家的反馈，帮助判断某个安全问题是否足够严重，值得启动“高风险”的正式警示程序。Saunders 认为，现有的政府监管机构无法承担这个角色。

首先，这些监管机构可能缺乏足够的专业知识，无法帮助 AI 工作者理清安全问题。其次，员工也很少愿意与政府官员直接接触——正如 Saunders 在播客中所言，这样的联系可能让人“感到非常有压力”。他更希望能够联系一位专家，讨论自己的担忧。在理想情况下，专家会告诉他相关风险并不严重或不太可能发生，这样他就能安心继续手头的工作。

降低门槛

因此，Saunders 在播客中的建议并不是“警示权”，因为这意味着员工已经确信存在不安全或非法的行为。他真正想要的是一个“直觉检查”，即一个机会来验证他对不安全或非法行为的怀疑是否合理。这种情况下的风险较小，监管反应也可以相应放缓。处理这些初步检查的第三方可以更加非正式。比如，AI 领域的博士生、已退休的行业专家或其他拥有相关知识的人士可以自愿组成一个 AI 安全热线。他们可以通过保密的匿名电话，与员工快速、专业地讨论安全问题。热线的志愿者应当熟悉最新的安全实践，并具备帮助员工了解可用选项（如警示权机制）的广泛知识。

正如 Saunders 所指出的，很多员工不愿直接将自己的担忧升级至董事会或政府机构。如果有一个中间的、非正式的步骤，他们更可能主动提出问题。

借鉴其他领域的经验

关于 AI 安全热线的具体运作方式，AI 社区、监管机构和民间社会还需要进行进一步讨论。为了让热线发挥最大作用，可能需要建立一种机制，将最紧急、经过验证的报告及时传递给相关权威机构。此外，如何确保热线通话的保密性也是一个需要深入研究的问题。招募和留住志愿者也是一大挑战。考虑到 AI 领域专家们对 AI 风险的广泛关注，出于帮助他人的意愿，一些专家可能会愿意参与。如果志愿者数量不足，可能需要提供一些额外激励。不过，首先我们必须认识到 AI 安全监管中存在的这一缺口。接下来，我们需要借鉴其他行业的成功经验，建立第一个 AI 安全热线。

一个可以参考的范例是设立监察员。其他行业已经意识到，设立中立、独立的监察员来评估员工的担忧是非常有价值的。学术界、非营利组织和私营企业中都有这样的机制。监察员的最大特点是中立性——他们没有偏袒任何一方的动机，因此更容易获得各方的信任。回顾联邦政府中监察员的应用案例可以发现，当有监察员存在时，问题往往能更早地被提出并得到解决。

这一概念相对较新。美国商务部在 1971 年设立了第一个联邦监察员，负责帮助公民解决与政府机构的争端，并调查政府行为。其他机构，如社会保障局和税务局，随后也设立了自己的监察员办公室。对这些早期努力的回顾显示，优秀的监察员确实能够显著改善公民与政府的关系。整体来看，监察员的存在有助于提高法规的自愿遵守率，并促进公民与政府的合作。

AI 行业的监察员或安全热线可能会与联邦机构的监察员有所不同，但这一概念本身值得 AI 安全倡导者深入研究。

警示权可能有助于让 AI 安全问题浮出水面，但我们还需要设置更多中间的、非正式的步骤。AI 安全热线是一个容易实现的监管措施。我们可以迅速组织一批志愿者，提供一个即时的渠道，让像 Saunders 这样的人可以放心地表达他们的担忧。

本文作者 Kevin Frazier 是圣托马斯大学法学院的助理教授，也是德克萨斯大学奥斯汀分校宪法研究项目的高级研究员。

原文链接：

https://www.technologyreview.com/2024/09/16/1103959/why-we-need-an-ai-safety-hotline/

世良情感网

揭发问题反遭报复？AI行业内部举报机制困境

深科技利大千