在快速发展的人工智能(AI)世界中,数据隐私往往是房间里的大象。随着基于人工智能的公司继续积累大量用户数据来训练他们的模型,关于保护敏感信息的问题越来越大,在监管界引起了共鸣。一个最近的案例是美国联邦贸易委员会(FTC)最近对OpenAI的调查,其核心是公司潜在违反消费者保护法的行为。
然而,尽管这项调查对OpenAI来说似乎令人生畏,但麻省理工学院最近的研究可能会提供一条重要的前进道路,不仅对OpenAI而且其他人工智能技术公司也是如此。
麻省理工学院的科学家提出了一种被称为“可能近似正确”( Probably Approximately Correct PAC)隐私的尖端数据隐私技术。该技术旨在为数据添加尽可能少的“噪音”,从而保持其效用,同时确保对敏感信息的保护。
PAC隐私与当前做法的不同之处在于其独特的噪声添加方法。与只关注可区分性问题的传统技术不同,PAC隐私关注的是,一旦添加噪音,潜在攻击者在重建敏感数据的任何部分时将面临的困难。通过考虑原始数据中的“不确定性”或“熵”,PAC隐私创造了一个环境,即使对具有无限计算能力的对手也能确保隐私。
对于类似OpenAI的人工智能公司来说,采用PAC隐私方法可以表明致力于加强其隐私实践,同时保持其机器学习模型的性能。联邦贸易委员会的调查提出了一个问题,即OpenAI是否参与了与消费者数据安全和隐私有关的欺骗行为。实施PAC隐私可以展示公司保护用户信息的积极措施来解决这些问题。
PAC隐私的主要好处之一是其自动性。它确定了需要添加的最小噪音量,确保数据隐私,而无需了解模型的内部工作或训练程序。此功能可以帮助类似OpenAI的公司证明隐私承诺,而不会影响其人工智能模型的有效性。
此外,PAC隐私还旨在确保在输入数据进行子采样时,机器学习模型的输出不会发生重大变化,这将降低方差,因此需要更少的噪声添加。该模型在PAC隐私下的稳定性也可以降低计算成本,解决人工智能公司的另一个潜在问题。
当然,PAC隐私的实施并非没有挑战。其计算成本可能很高,需要在众多数据子采样上重复训练机器学习模型。然而,如果收益大于这些挑战,面对监管压力,人工智能公司愿意投入资源来确保用户隐私。
麻省理工论文:https://arxiv.org/abs/2210.03458