自 2024 年 8 月以来,Anthropic 通过 HackerOne 运行漏洞赏金计划,向任何能够设计 “通用越狱” 的人提供 15000 美元奖励,让Constitutional 分类器回答 10 个被禁止问题。183 名专家花费 3000 多小时尝试,最好结果也仅提供 10 个提示中 5 个的可用信息。此外,Anthropic 用 Claude LLM 合成的 10000 个越狱提示测试模型,Constitutional 分类器成功阻止 95%,而未受保护的 Claude 系统仅阻止 14%。
![](http://image.uc.cn/s/wemedia/s/upload/2024/769e280c7672b34712b04afa54e6733b.png)
在当今数字化时代,人工智能(AI)技术正以惊人的速度发展,渗透到我们生活的方方面面。从智能助手到自动驾驶汽车,AI 的应用无处不在。然而,随着 AI 技术的广泛应用,其安全性和伦理问题也日益凸显。特别是对于企业 AI 模型而言,存在一些敏感话题是创建者不愿触碰的禁区,例如大规模杀伤性武器、非法活动以及政治历史等。这些敏感话题不仅涉及法律风险,还可能引发社会争议和伦理问题。
多年来,众多富有探索精神的 AI 用户为突破这些限制,尝试了各种奇特方法,从怪异的文本字符串到 ASCII 艺术,再到编织关于已故祖母的故事,试图越狱模型获取 “禁止” 的结果。这些越狱行为不仅挑战了 AI 模型的安全性,也引发了人们对 AI 伦理和法律边界的深刻思考。
Anthropic 是一家专注于人工智能安全研究的初创公司,成立于 2021 年,总部位于美国加利福尼亚州旧金山。公司的核心团队包括来自 OpenAI 的前研究副总裁达里奥・阿莫迪(Dario Amodei)和大语言模型 GPT-3 论文的第一作者汤姆・布朗(Tom Brown)等人。Anthropic 的成立源于创始人对大型 AI 模型中存在的安全问题的担忧,以及对构建可靠、可解释和可操控的 AI 系统的愿景。公司致力于开发更具人性化和安全性的 AI 产品,其旗舰产品 Claude AI 在多项自然语言处理任务中表现出色。
随着 AI 技术的普及,用户对 AI 模型的探索也日益深入。一些用户试图通过各种方法绕过 AI 模型的安全限制,获取敏感信息或进行不当操作。这些越狱行为不仅涉及技术层面的挑战,还触及了法律和伦理的边界。例如,用户可能试图获取关于大规模杀伤性武器的信息、进行非法活动的策划,或者探讨敏感的政治历史话题。这些行为不仅违反了 AI 模型的使用条款,还可能引发严重的法律后果和社会影响。
为应对这些挑战,Anthropic 推出了全新的Constitutional 分类器系统,旨在提高 AI 模型的安全性和抗越狱能力。该系统基于自然语言规则的 “Constitutional ”,明确了模型允许和不允许的内容类别。通过生成大量合成提示,这些提示经多种语言翻译及 “已知越狱” 风格修改,再用 “自动红队” 提示调整,以创造新的越狱攻击,形成强大的训练数据,用于微调更抗越狱的分类器。在输入端,分类器用模板包围每个查询,描述有害信息类型及用户可能的混淆或编码请求方式;在输出端,经专门训练的分类器计算响应中特定标记序列讨论不允许内容的可能性,若超阈值则停止输出。
AI 安全防护是确保 AI 系统在实际应用中安全性和稳定性的关键。随着 AI 技术的广泛应用,攻击者可能通过各种手段对 AI 系统进行攻击,例如通过对单一模态和组合模态进行对抗扰动,获得更大的攻击面。因此,加强安全防护措施,确保 AI 系统的安全性和稳定性显得尤为重要。AI 安全防护不仅涉及技术层面的挑战,还涉及法律、伦理和社会等多个方面。例如,AI 系统可能因数据偏见导致不公平的决策结果,引发社会不平等和群体分化。此外,AI 技术的滥用也可能导致隐私侵犯、虚假信息传播等问题,对社会造成负面影响。
在 AI 模型的性能比较方面,不同的 AI 模型在处理复杂任务时表现出不同的优势和劣势。例如,多模态大模型能够处理文本、图像、语音等多种数据形式,但在安全性和稳定性方面面临严峻挑战。在法律限制方面,AI 模型的开发和应用受到多种法律法规的约束。例如,AI 系统在处理个人数据时必须遵守隐私保护法规,确保用户数据的安全和隐私。此外,AI 系统在决策过程中必须遵循透明度和可解释性原则,以便监管机构和用户能够理解其决策逻辑。
AI 模型的伦理问题涉及多个方面,包括数据偏见、隐私保护、透明度和可解释性等。数据偏见可能导致 AI 系统在决策过程中对特定群体产生不公平的结果,加剧社会不平等。隐私保护是 AI 系统面临的另一个重要问题,随着 AI 技术在各个领域的广泛应用,个人数据的收集和分析变得越来越普遍,如何保护用户隐私成为一个重要问题。透明度和可解释性是确保 AI 系统可信度的关键,许多 AI 系统,尤其是基于深度学习的模型,其决策过程往往是黑箱操作,难以解释,这给监管和责任归属带来了困难。
尽管取得显著成果,Anthropic 也指出Constitutional 分类器系统带来 23.7% 的计算开销,增加查询成本和能源需求,且拒绝回答未受保护 Claude 额外 0.38% 的无害提示。不过,Anthropic 并未声称该系统能完全防止所有越狱,但表示即使有越狱,发现保护措施的难度也增加,且训练分类器的Constitutional 能迅速适应新攻击。