更多的数据可以扩大逆鲁棒性和标准模型之间的泛化差距

互联不一般哥 2024-03-15 00:15:07

摘要

现代机器学习模型很容易受到攻击,这些攻击会对数据进行干扰,导致严重的预测错误。为了解决这个问题,实践者经常使用对抗性训练来学习模型,这些模型对此类攻击具有鲁棒性,但代价是在未受干扰的测试集上产生更高的泛化错误。传统的观点是,更多的训练数据应该缩小逆向模型和标准模型的泛化误差的差距。然而,我们研究了高斯模型和伯努利模型在 L∞ 攻击下鲁棒分类器的训练,我们证明了更多的数据实际上可能会增加这一差距。此外,我们的理论结果确定了在什么情况下额外的数据将缩小差距。最后证明,我们的结果也适用于线性回归模型,甚至适用于更广泛的模型。

引言

现代机器学习有一个特别重要的挑战,即对抗性攻击。具体地说,给定一个在标准数据集上具有优异性能的模型,可以在测试数据中添加小扰动,从而导致其做出错误的预测,甚至产生安全问题。自机器学习模型以来,对抗性问题已经从几个不同的角度进行了探索。对抗性训练在计算上可能开销很大,但它可能会增强对反向修改输入的抵抗力。尽管在干扰测试集方面,逆鲁棒模型往往优于标准模型,但最近的研究发现,这种模型在标准测试集上也可能表现更差。我们将未扰动测试集上的测试损失的差值称为交叉泛化间隙。本文着重讨论了这一差距是否可以弥补。

在本文中,我们确定了对抗性训练过程中的两种方法。在一种方法下,更多的训练数据最终有助于缩小交叉泛化间隙。在另一种方法下,随着更多的数据用于训练,这一差距将继续扩大。

1.1 我们的贡献

在分析交叉泛化间隙时,我们假设鲁棒模型是在 L∞ 约束下训练的。我们研究了高斯模型和伯努利模型两个分类模型,以及一个简单的线性回归模型。对于高斯模型,我们从理论上证明了在一个鲁棒分类器的训练过程中,有两种可能的情况总结了交叉泛化间隙和训练样本量之间的关系。更具体地说,让 n 表示训练数据数量。在强敌对状态下,间隙总是增大的。相比之下,在弱敌对状态中,存在一个临界点,对于所有小于这个阈值的 n,间隙随之递增。超过这个阈值,间隙将会缩小。需要注意的是,即使在较弱的对手状态下,也有可能使这个阈值任意大,这意味着添加数据点 总是会扩大交叉泛化差距。 对于伯努利模型,我们给出了类似的结果。

我们工作的主要含义是,简单地添加更多的数据并不总是缩小交叉泛化间隙。如果我们想要训练逆鲁棒模型同时不损失精度,那么可能需要全新的想法。

2 准备工作

2.1符号

我们用[d]来表示正整数集合{1,2,…,d},用 N(μ,Σ)表示多元高斯分布,二维向量 u 的第 j 个维度表示为 u(j),向量 u 和 v 的内积为<u,v>,Bu 为干扰向量集,ε 为扰动预算,定义 Heaviside 跃迁函数为:

2.2 问题设置

假设数据(x,y)来自未知分布 D,x 为输入,y 为标签;参数为 w,模型损失函数为 L(x,y;),训练集数量为 n,我们可以定义优化标准和鲁棒性模型如下所示:

如果我们有模型参数 w 和测试集 Dtest,那么测试集损失函数为

另外,我们定义交叉泛化间距为

3 分类

在本节中,我们将研究一个二分类问题,每一个数据点表示为(x,y),参数为 w,损失函数为-y<x,w>,最佳标准和鲁棒分类器定义如下:

泛化交叉间距定义如下:

本文主要研究泛化交叉间距如何随数据量变化而变化。

3.1 高斯模型

当(x,y)服从高斯分布时,我们有以下 4 点:

(a) 对任意 n≥1,gn≥0

(b)

(c) 在扰动范围小于高斯均值的无穷范数时,在如下情况时 gn 关于 n 严格递增

在以下情况时 gn 关于 n 递减(K0)为全局常量

(d) 在扰动半径大于高斯均值的无穷范数时,gn 关于 n 严格递增

3.2 伯努利模型

在这一部分,我们如下所示讨论伯努利分布。设数据集(x,y)中,y 服从[-1,1]均匀分布,对任意的 j,都有

我们称这样的分布符合伯努利分布。其中 Γ 为信号强度。

在实验中,我们设 W=d=θ=1,ε=0.2,结果表明,gn 并不总是单调的,而 gn 所围绕的中心线 sn 显示出分段的单调性,并且满足

就上之前我们得到的结论一样,在伯努利模型中,我们也可以得出如下结论:

(a) 对任意 n≥1,gn≥0

(b)

(c) 当 ε/Γ 小于一个阈值时,sn 在以下范围内递增

并且在一下范围内递减

(d) 当 ε/Γ 大于 θ 的无穷范数时,sn 始终严格递增

3.3 讨论

上述实验表明增长的阶段取决于扰动半径 ε 和正类坐标平均值之间的比率。从另一个角度看,如果对手的强度与类别之间的距离较大,增长的阶段就会很长。

当把回归任务和分类任务进行比较时,还可以看到一个很有趣的事情。回归任务可以被看做是有无限多种类别的分类任务,因此,根据样本 x 的分布,我们可以减小类别之间的距离并且得到一个很长的增长区间。

4 回归

在这一部分,我们探讨线性回归问题,我们有数据点(x,y)和线性模型的参数 w,损失函数定义为 L(x,y;w)=(y-< w,x>)^2。

为了获得数据,我们的样本 xi 从分布 Px 中得到,并且令 yi=< w*,xi>+σ,其中 σ 是高斯噪音,属于正态分布。最优标准的模型可以用一个类似的形式表示:

观察 5 体现了线性回归模型中的鲁棒性模型

观察 6 给出了交叉泛化间距

对于图 1a 和 1b,我们的第一个观察结果是在高斯样例中,交叉泛化距离 gn 总是随着数据的增多而增多,第二个结果是该距离在初始阶段是一个很大的负数。

对于图 2c 和 2d,可以看出泊松分布输入和高斯输入的结果对比鲜明。在高斯分布中,交叉泛化距离是一直递增的,在泊松分布中,不同数据之间最小距离为 1。弱对抗样本无法使交叉泛化距离一直增长。另外,当 ε 为泊松分布的均值的时候,两幅图中都区分出了弱对抗样本和强对抗样本。不同于高斯分布,我们也没有发现初试阶段的间隙值为负数。这一观察很好的支持了我们的理论结果:在一维线性回归模型中,如果 x1~Poisson(λ)+1,σ~N(0,1),y1=w*x+σ,交叉泛化距离 g1 始终非负、有限,并且随着 ε 增加。

5 结论

本文研究了逆鲁棒模型和标准模型之间的泛化间距,分析了两种分类模型,并探讨了线性回归模型。我们在理论上发现,一个更大的训练集不一定会缩小交叉泛化间距,甚至会扩大它。此外,对于这两种分类模型,我们证明了交叉泛化间距始终非负,这表明当前的对抗性训练必须牺牲精度来换取鲁棒性。这种权衡对于现有的对抗性训练框架是不可避免的。

6 鸣谢

AK 由 NSF,ONR 和 AFOSR 赞助支持。LC 由 Google 博士奖学金支持。我们想感谢 Peter Bartlett, Hamed Hassani, Adel Javanmard, 和 Mohammad Mahmoody 对本论文第一版的评论并且感谢 Mitrovic 对于论文准备的帮助

本文由南京大学软件学院 2021 级专业硕士周宣策翻译并转述,刘佳玮审核。

0 阅读:0

互联不一般哥

简介:感谢大家的关注