年复一年,人工智能不断发展,在解决日常人类任务方面变得更加高效。但与此同时,它增加了个人信息滥用的可能性,在分析和传播个人数据方面达到了前所未有的力量和速度水平。在这篇文章中,我想仔细研究一下人工智能系统和机器学习之间的紧密联系,以及它们对日益私密和敏感的数据的使用。
我们将共同探讨现有的隐私风险,讨论机器学习中的传统隐私方法,并分析克服安全漏洞的方法。
隐私在人工智能中的重要性如今,人工智能被广泛应用于许多领域,包括营销,这已经不是什么秘密了。NLP,即自然语言处理,解释人类语言,用于语音助手和聊天机器人,理解口音和情绪;它将社交媒体内容与参与度联系起来。机器学习采用算法来分析数据、提高性能,并使 AI 能够在没有人为干预的情况下做出决策。深度学习依赖于神经网络,并使用广泛的数据集进行明智的选择。
这些 AI 类型经常协作,对数据隐私构成挑战。人工智能有意地收集数据,用户提供信息,或者无意中,例如通过面部识别。当无意的数据收集导致意外使用,损害隐私时,就会出现问题。例如,在手机上讨论宠物食品或更私密的购买可能会导致有针对性的广告,从而揭示无意的数据收集。人工智能算法虽然很智能,但可能会无意中捕获信息并使其受到未经授权的使用。因此,用于家庭识别的带有面部识别功能的可视门铃可能会无意中收集有关无关个人的数据,从而导致邻居担心监控和数据访问。
考虑到上述情况,建立一个关于使用新人工智能技术的道德决策框架至关重要。应对隐私挑战并考虑技术伦理对于人工智能的持久成功至关重要。其中一个主要原因是,在技术创新和隐私问题之间找到平衡将促进对社会负责的人工智能的发展,有助于公共价值和私人安全的长期创造。
传统方法风险在我们继续使用有效的隐私保护技术之前,让我们先看看传统方法及其可能面临的问题。传统的隐私和机器学习方法主要围绕两个概念:用户控制和数据保护。用户想知道谁收集他们的数据,出于什么目的,以及这些数据将被存储多长时间。数据保护涉及匿名和加密的数据,但即使在这里,差距也是不可避免的,尤其是在机器学习中,解密通常是必要的。
另一个问题是,机器学习涉及多个利益相关者,从而形成了一个复杂的信任网络。在不同实体之间共享数字资产(例如训练数据、推理数据和机器学习模型)时,信任至关重要。试想一下,有一个实体拥有训练数据,而另一组实体可能拥有推理数据。第三个实体提供在推理上运行的机器学习服务器,由其他人拥有的模型执行。此外,它还在涉及多方的广泛供应链的基础设施上运营。因此,所有实体都必须在复杂的链条中表现出对彼此的信任。管理这个信任网络变得越来越困难。
安全漏洞示例随着我们更多地依赖使用机器学习的通信技术,数据泄露和未经授权访问的可能性就会增加。黑客可能会试图利用这些系统中的漏洞来获取个人数据,例如姓名、地址和财务信息,这可能导致资金损失和身份盗用。
一份关于恶意使用人工智能的报告概述了三个安全问题领域:现有威胁的扩展、新的攻击方法以及威胁典型特征的变化。恶意使用人工智能的例子包括使用深度伪造技术的BEC攻击,助长了社会工程策略。IBM 的 DeepLocker 演示了 AI 辅助的网络攻击,展示了 AI 如何通过根据趋势和模式做出决策来增强勒索软件攻击。值得注意的是,TaskRabbit 遭受了 AI 辅助的网络攻击,其中支持 AI 的僵尸网络执行了 DDoS 攻击,导致数据泄露,影响了 375 万客户。
此外,网上购物的增加助长了无卡 (CNP) 欺诈,再加上合成身份和身份盗窃问题的上升。预计到 2024 年,其损失可能达到 2000 亿美元,交易量将增长 23% 以上。
保护隐私的机器学习这时,保护隐私的机器学习就有了解决方案。最有效的技术包括联邦学习、同态加密和差分隐私。联邦学习允许不同的实体在不共享显式数据的情况下共同训练模型。反过来,同态加密可以在整个过程中对加密数据进行机器学习,而差分隐私确保计算输出不会与单个数据存在相关联。这些技术与可信的执行环境相结合,可以有效地解决隐私和机器学习交叉点的挑战。
隐私 联邦学习的优势正如你所看到的,与保护隐私的机器学习技术(尤其是联邦学习)相比,经典的机器学习模型缺乏安全实施人工智能系统和物联网实践的效率。作为机器学习的去中心化版本,联邦学习有助于使 AI 安全保护技术更加可靠。在传统方法中,敏感的用户数据被发送到集中式服务器进行训练,这带来了许多隐私问题,而联邦学习通过允许模型在设备上本地训练来解决这个问题,从而确保用户数据安全。
增强数据隐私和安全性联邦学习具有协作性质,将边缘上的每个物联网设备视为唯一的客户端,在不传输原始数据的情况下训练模型。这确保了在联邦学习过程中,每个物联网设备只收集其任务所需的信息。通过将原始数据保留在设备上并仅向中央服务器发送模型更新,联邦学习可以保护私人信息,最大限度地降低个人数据泄露的风险,并确保安全操作。
提高数据准确性和多样性另一个重要问题是,用于训练模型的集中式数据可能无法准确表示模型将遇到的全部数据。相比之下,在来自各种来源的去中心化数据上训练模型并将它们暴露在更广泛的信息中,可以增强模型泛化新数据、处理变化和减少偏差的能力。
更高的适应性联邦学习模型表现出的另一个优势是无需重新训练即可适应新情况的显着能力,这提供了额外的安全性和可靠性。利用以前经验的见解,这些模型可以做出预测,并将在一个领域获得的知识应用到另一个领域。例如,如果模型在预测特定领域的结果方面变得更加熟练,它可以将这些知识无缝地应用于另一个领域,从而提高效率、降低成本并加快流程。
加密技术为了增强 FL 中的隐私,通常使用更有效的加密技术。其中包括同态加密和安全多方计算。这些方法可确保数据在通信和模型聚合期间保持加密和安全。
同态加密允许在不解密的情况下对加密数据进行计算。
例如,如果用户想要将数据上传到基于云的服务器,他们可以对其进行加密,将其转换为密文,然后才能上传。然后,服务器将在不解密的情况下处理该数据,然后用户将取回它。之后,用户将使用他们的密钥解密它。
多方计算 (MPC) 使多方(每方都有自己的私有数据)能够评估计算,而不会泄露每方持有的任何私有数据。
多方计算协议确保了隐私性和准确性。各方持有的私人信息不能从协议的执行中推断出来。
如果组内任何一方决定在协议执行过程中共享信息或偏离指令,MPC 将不允许其强迫其他方输出错误结果或泄露任何私人信息。
最后的考虑与其说是结论,不如说是强调在机器学习中采用高级安全方法的重要性和紧迫性。为了在人工智能安全和安保方面取得有效和长期的成果,人工智能开发界与法律和政策机构之间应协调努力。在制定规范、道德、标准和法律方面建立信任并建立积极主动的合作渠道,对于避免技术和政策部门的反应反应和可能无效至关重要。
我还想引用上述报告的作者的话,他们提出了以下建议,以应对人工智能的安全挑战:
政策制定者应与技术研究人员密切合作,探索、预防和减轻人工智能的潜在恶意应用。人工智能研究人员和工程师应认识到其工作的双重用途性质,考虑滥用的可能性,并允许这些考虑影响研究重点和规范。当有害应用是可预见的时,他们还应该积极主动地与相关利益攸关方接触。从成熟的研究领域(如计算机安全)中确定最佳实践,并将其应用于解决人工智能中的两用问题。积极努力扩大利益攸关方和领域专家对应对这些挑战的讨论的参与。希望本文能鼓励您自己研究该主题,为更安全的数字世界做出贡献。
原文标题:Evolution of Privacy-Preserving AI: From Protocols to Practical Implementations
原文链接:https://dzone.com/articles/evolution-of-privacy-preserving-ai-from-protocols
作者:Petr Emelianov
编译:LCR