Anthropic引领反对AI偏见和歧视的指控

人类学研究人员揭示了新技术，通过在部署之前在假设的真实场景中评估语言模型来主动检测人工智能偏见、种族主义和歧视。随着人工智能渗透到现代生活的几乎方方面面，像Anthropic这样的初创公司的研究人员正在努力在部署新的人工智能系统之前防止偏见和歧视等危害。现在，在Anthropic发表的另一项开创性研究中，该公司的研究人员在一篇题为“评估和减轻语言模型决策中的歧视”的论文中公布了他们对人工智能偏见的最新发现。这篇新发表的论文揭示了人工智能系统决策中根深蒂固的微妙偏见。但这项研究更进一步：这篇论文不仅揭露了偏见，而且还提出了一种全面的策略，通过使用新的歧视评估方法，创建更加公平和公正的人工智能应用程序。该公司的新研究来得正是时候，因为人工智能行业继续审查快速技术增长的道德影响，尤其是在 OpenAI 解雇和重新任命首席执行官 Sam Altman 后发生内部动荡之后。这篇发表在arXiv上的新研究论文提出了一种积极主动的方法，用于评估大型语言模型（LLM）在金融和住房等高风险场景中的歧视性影响——随着人工智能继续渗透到敏感的社会领域，人们越来越关注这一点。 “虽然我们不赞成或允许使用语言模型进行高风险的自动化决策，但我们认为尽早预测风险至关重要，”主要作者兼研究科学家Alex Tamkin在论文中说。“我们的工作使开发人员和政策制定者能够提前解决这些问题。 Tamkin进一步阐述了现有技术的局限性，以及是什么激发了一种全新的歧视评估方法的创建。“先前对语言模型中歧视的研究深入到一个或几个应用中，”他说。“但语言模型也是通用技术，有可能在整个经济中的大量不同用例中使用。我们试图开发一种更具可扩展性的方法，可以覆盖这些潜在用例的更大一部分。研究发现语言模型中的歧视模式为了进行这项研究，Anthropic 使用了自己的 Claude 2.0 语言模型，并生成了一组不同的 70 个假设决策场景，这些场景可以输入到语言模型中。例子包括高风险的社会决策，如发放贷款、批准医疗和提供住房。这些提示系统地改变人口统计因素，如年龄、性别和种族，以便能够发现歧视。“应用这种方法揭示了克劳德2.0模型中在不应用干预措施的情况下在特定环境中的积极和消极歧视模式，”该论文指出。具体来说，作者发现他们的模型表现出对女性和非白人的积极歧视，同时歧视60岁以上的人。干预措施可减少有节制的歧视研究人员在论文中解释说，该研究的目标是使开发人员和政策制定者能够主动应对风险。该研究的作者解释说：“随着语言模型功能和应用的不断扩展，我们的工作使开发人员和政策制定者能够预测、衡量和解决歧视问题。研究人员提出了缓解策略，例如添加歧视是非法的陈述，并要求模型在避免偏见的同时表达他们的推理。这些干预措施显著减少了有节制的歧视。引领人工智能伦理进程这篇论文与Anthropic今年早些时候备受讨论的宪法AI论文密切相关。这篇论文概述了克劳德在与用户互动时必须遵循的一套价值观和原则，例如乐于助人、无害和诚实。它还规定了克劳德应如何处理敏感话题、尊重用户隐私和避免非法行为。“我们本着透明的精神分享克劳德的现行宪法，”Anthropic联合创始人贾里德·卡普兰（Jared Kaplan）在5月份人工智能宪法发布时告诉VentureBeat。“我们希望这项研究能够帮助人工智能社区建立更有益的模型，并使其价值更加清晰。我们也以此为起点——我们希望不断修改克劳德的宪法，我们分享这篇文章的部分希望是，它将引发更多关于宪法设计的研究和讨论。这项新的歧视研究也与Anthropic在降低人工智能系统灾难性风险方面的先锋工作密切相关。Anthropic 联合创始人 Sam McCandlish 在 9 月份分享了对公司政策发展及其潜在挑战的见解——这也可以为发表 AI 偏见研究背后的思考过程提供一些启示。 “正如你[在你的问题中]提到的，其中一些测试和程序需要判断，”麦克兰德利什告诉 VentureBeat，关于 Anthropic 在灾难性 AI 事件中使用董事会批准。“我们真正担心的是，由于我们既要发布模型，又要测试它们的安全性，因此有一种诱惑，使测试变得过于容易，这不是我们想要的结果。董事会（和LTBT）提供一定程度的独立监督。归根结底，对于真正的独立监督，最好由政府和监管机构执行这些类型的规则，但在此之前，这是第一步。透明度和社区参与通过发布这篇论文，除了数据集和提示之外，Anthropic 还倡导透明度和公开讨论——至少在这个非常具体的情况下——并邀请更广泛的人工智能社区参与完善新的道德体系。这种开放性促进了创建公正的人工智能系统的集体努力。“我们在论文中描述的方法可以帮助人们预测和集思广益，为社会不同领域的语言模型提供更广泛的用例，”Tamkin告诉VentureBeat。“这可能有助于更好地了解该技术在不同领域的可能应用。它还可能有助于评估对比我们研究的更广泛的现实世界因素的敏感性，包括人们所说的语言、他们交流的媒体或他们讨论的主题的差异。对于那些负责企业技术决策的人来说，Anthropic的研究提供了一个重要的框架，用于审查人工智能的部署，确保它们符合道德标准。随着利用企业 AI 的竞赛愈演愈烈，该行业面临的挑战是构建将效率与公平相结合的技术。

世良情感网

米言看科技