你能相信你的模型的不确定性吗?评估数据集偏移下的预测不确定性

互联不一般哥 2024-03-14 02:25:16

摘要

包括深度学习在内的现代机器学习方法在有监督学习任务的预测精度方面取得了巨大成功,但在对其预测不确定性进行有效估计方面仍有不足。在现实环境中,量化不确定性尤其重要,因为现实环境中的输入分布往往会因各种因素(包括样本偏差和非平稳性)而偏离训练分布。在这种情况下,经过良好校准的不确定度估计值传达了关于何时应该(或不应该)信任模型输出的信息。文献中提出了许多概率深度学习方法,包括贝叶斯和非贝叶斯方法,用于量化预测不确定性,但据本文所知,在数据集偏移的情况下,之前还没有对这些方法在数据集偏移下进行严格的大规模经验比较。本文在分类问题上对现有的最先进的方法进行了大规模的基准测试,并研究了数据集偏移对准确性和校准的影响。本文发现,传统的事后校准确实有不足之处,之前的几种方法也是如此。然而,一些将模型边缘化的方法在广泛的任务中给出了令人惊讶的结果。

1 介绍

最近在各个领域取得的成功导致了深度神经网络(DNN)在实践中的广泛应用。因此,这些模型的预测分布越来越多地被用于重要应用中的决策,从机器学习辅助医疗诊断到自动驾驶汽车。此类高风险应用不仅需要点预测,还需要预测不确定性的准确量化,即除了类预测外,还需要有意义的置信值。有了来自目标数据分布的足够多的独立标记样本,就可以估计模型的置信度与其准确性的一致性,并相应地调整预测。然而,在实践中,一旦部署了模型,观测数据的分布可能会发生变化,最终与原始的训练数据分布非常不同。例如,考虑数据分发可能随时间、季节性或流行趋势而变化的在线服务。事实上,在分布偏移和分布外(OOD)输入条件下的鲁棒性对于机器学习的安全部署是必要的。对于此类设置,校准的预测不确定度很重要,因为它能够准确评估风险,让从业者知道准确度可能会降低,并且允许系统避免由于低置信度而做出决策。

已经开发了各种各样的方法来量化 DNN 中的预测不确定性。概率神经网络,如混合密度网络捕获给定输入输出中固有的模糊性,也称为任意不确定性。贝叶斯神经网络学习参数的后验分布,量化参数不确定性,这是一种认知不确定性,可以通过收集额外的数据来减少。常用的近似贝叶斯方法包括拉普拉斯近似、变分推理、基于 dropout 的变分推理、期望传播和随机梯度 MCMC。非贝叶斯方法包括训练多个概率神经网络和整合单个模型的预测。另一种流行的非贝叶斯方法涉及通过 temperature scaling 重新校准已进行验证集的概率,郭等人证明了这一点,从而在 i.i.d.测试集上实现了良好校准的预测。

使用分布偏移来评估预测不确定性虽然之前的工作已经评估了 OOD 输入的预测不确定性的质量,但据本文所知,还没有对数据集偏移下不同方法的不确定性估计进行综合评估。事实上,本文认为,在分布偏移的情况下,对预测不确定性的有效评估是最有意义的。其中一个原因是,事后校准在独立且相同分布(i.i.d.)的情况下会产生良好的结果,但即使在输入数据发生轻微变化的情况下也可能失败。在实际应用中,如上所述,分布偏移非常普遍。随着原始训练数据的变化越来越大,了解模型输出中的风险、不确定性和信任问题变得越来越重要。

本着呼吁更严格理解现有方法的精神,本文提供了一个评估不确定度的基准,不仅关注 i.i.d.设置中的校准,还关注分布偏移下的校准。对概率深度学习中的流行方法进行了大规模评估,重点是在大规模环境中运行良好的方法,并在图像、文本和分类模式的不同分类基准上对其进行评估。本文使用这些实验来评估以下问题:

•数据集偏移下不同方法的不确定性估计值的可信度如何?

•i.i.d.设置中的校准是否转换为数据集偏移下的校准?

•在数据集转移的情况下,不同方法的不确定性和准确性是如何共同变化的?是否有一些方法在这一制度下始终表现良好?

2 背景

符号和问题设置:x∈R^d 表示一组 d 维特征并且 y∈{1,…,k}表示 k 类分类的相应标签(目标)。本文假设训练数据集 D 由 N 个 i.i.D.样本$D={(x*n,y_n)}^N*{n=1}组成。

让 p^∗(x,y)表示真实分布(未知,仅通过样本 D 观察),也称为数据生成过程。本文关注分类问题,其中真实分布假设为 k 类上的离散分布,而观测到的 y∈{1,…,k}是来自条件分布 p^∗(y|x)的样本。本文使用神经网络对 pθ(y|x)进行建模,并使用训练数据集估计参数 θ。在测试时,根据从与训练数据集相同的分布中采样的测试集评估模型预测。然而,在这里,本文还想根据从 q(x,y)≠p^*(x,y)采样的 OOD 输入来评估模型。特别地,考虑两种转变:

•测试输入的偏移版本,其中真实值标签属于 k 类之一。本文使用提出的污染和扰动等偏移,理想情况下,希望随着偏移的增加,模型预测变得更加不确定,假设偏移会降低精度。

•一个完全不同的 OOD 数据集,其中真实值标签不是 k 类之一。在这里,检查这些新实例的模型是否表现出更高的预测不确定性,并为此报告仅依赖预测而非真值标签的诊断。

现有方法的高水平概述已开发了多种方法,以提供更高质量的不确定性估计或执行 OOD 检测以告知模型可信度。这些可大致分为:

1. 仅处理 p(y|x)的方法。

2. 对联合分布 p(y,x)进行建模的方法,例如深度混合模型。

3. 除了 p(y|x)外,还含有 OOD 检测成分的方法,以及选择性分类的相关工作。

本文参考 Shafaei 等人对这些方法的最新总结。由于建模假设的差异,在这些不同类别的方法之间进行公平比较具有挑战性;例如,一些 OOD 检测方法依赖于已知 OOD 集的知识,或使用上述类别的 none 进行训练,并且将这些方法的预测与从贝叶斯 DNN 获得的预测进行比较可能并不总是有意义的。本文关注上文(1)所述的方法,因为这使本文能够关注对数据做出相同建模假设的方法,并且只在如何量化预测不确定性方面有所不同。

3 方法和指标

本文从概率深度学习文献中选择了一部分方法,以了解其普遍性、可扩展性和实用性。其中包括:

•(Vanilla)最大 softmax 概率

•(Temp Scaling)使用验证集通过 temperature scaling 进行事后校准

•(dropout) Monte-Carlo Dropout,dropout rate 为 p

•(Ensembles)使用随机初始化在整个数据集上独立训练的 M 个网络的集合(本文在下面的实验中设置 M=10)

•(SVI)深度学习的随机变分贝叶斯推理。

•(LL)仅最后一层参数的近似贝叶斯推断

–(LL SVI)仅最后一层上的平均场随机变分推断

–(LL Dropout)仅在最后一层之前的激活上 dropout

除了不依赖于预测不确定性的指标(使用箭头指示哪个方向更好)之外,例如分类准确性 ↑,通常使用以下指标:

负对数似然(NLL)↓ 通常用于评估某些持有集合的模型不确定性的质量。缺点:虽然是一个适当的评分规则,但它可能会过分强调尾部概率。

Brier Score↓ 测量预测概率准确性的适当评分规则。它被计算为预测概率向量 p(y|x_n,θ)和一个 one-hot 真实响应 y_n 的平方误差。就是:

Brier 分数有一个方便的解释,即 BS=uncertainty−resolution+reliability,其中 uncertainty 是标签的边际不确定性,resolution 测量单个预测相对于边际的偏差,reliability 测量校准作为长期真实标签频率的平均违规。本文参考将 Brier score 分解为校准和细化进行分类,并参考对任何适当评分规则进行一般分解。缺点:Brier 评分对与发生/频繁事件相关的预测概率不敏感。

Brier 评分和负对数可能性都是合适的评分规则,因此最佳评分对应于完美预测。除了这两个指标之外,本文还评估了两个指标——预期校准误差和熵——它们侧重于预测概率的特定方面。这两个指标都不是一个合适的评分规则,因此存在使这些指标完美的琐碎解决方案;例如,返回每个实例的边际概率 p(y)将产生完全校准但无信息的预测。然而,这两个指标都度量了不能通过适当的评分规则直接度量的重要属性。

预期校准误差(ECE)↓ 测量预测概率精度。它被计算为 S 个桶的桶内精度和桶内预测概率之间的平均差距$B*s={n∈1..N:p(y_n|x_n,θ)∈(ρ_s, ρ*{s+1}]}。也就是说,ECE=∑^S*{s=1}\frac{|B_s|}{N}|acc(B_s)-conf(B_s)|,其中 acc(B_s)= |B_s|^{-1}∑*{n∈B*s}[y_n=\widehat{y}_n], conf(B_s)=|B_s|^{-1}∑*{n∈B_s}p(\widehat{y}_n|x_n,θ),\widehat{y_n}= argmax_y p(y|x_n,θ)是第 n 个预测值。当 bins{ρ_s:s∈1..S}是持有的预测概率的量级,|B_s|≈|B_k|,估计误差大约是常数。缺点。由于分档,ECE 并不总是随着预测的接近而单调地增加。如果|B_s|≠|B_k|,估计误差会在不同的分档中变化。

完全 OOD 输入没有真实标签。因此,本文报告了已知和 OOD 输入的置信度和预测熵直方图以及精度与置信图:给定预测 p(y=k|x_n,θ),将预测标签定义为\widehat{y}_n=argmax_y p(y|x_n,θ),并将置信度定义为 p(y=\wideha t{y}|x,θ)=max_k p(y=k|x_n,θ)。过滤掉对应于特定置信阈值 τ∈[0,1]的测试示例并计算此集合的精度。

4 实验与结果

本文评估了深度学习模型在三种不同模式的各种数据集上的预测不确定性行为:图像、文本和分类(在线广告)数据。对于每一项,都遵循标准的训练、验证和测试流程,但同时还评估了不断变化的数据和 OOD 数据集的结果。

4.1 示例-MNIST

本文首先说明了问题的设置和使用 MNIST 数据集进行的实验。使用了 LeNet 架构,和本文所有的实验一样,遵循标准的训练、验证、测试和超参数调整流程。同时,本文还计算了越来越多的偏移数据(在这种情况下,越来越多的旋转或水平平移的图像)的预测,并研究了模型的预测分布的行为。此外,本文在一个完全 OOD 的数据集 Not-MNIST 上进行预测,并观察模型预测的熵。在图 1 中总结了本文的一些发现,并在下面讨论。

本文希望看到的是:一个模型在预测越来越多的变化数据时,其准确度会下降,而且理想情况下,准确度的下降与预测者熵的增加相吻合。一个在训练和验证分布上被很好地校准的模型,在偏移的数据上最好还是如此。如果校准(ECE 或 Brier 可靠性)尽可能地保持一致,技术人员和下游任务可以考虑到一个模型正变得越来越不确定。在完全 OOD 的数据上,人们希望预测分布具有高熵性。从本质上讲,本文希望预测表明,由于输入偏离了训练数据的分布,一个模型“知道它不知道什么”。

本文观察到的情况:在图 1(a)和 1(b)中看到,对于所有被测试的方法来说,准确度肯定会随着偏移而降低,而且在这个指标上很难区分。然而,Brier 得分描绘了一幅更清晰的画面,看到了不同方法之间的显著差异,也就是说,一些方法的预测质量比其他方法的预测质量下降得更明显。一个重要的观察结果是,虽然在验证集上进行校准会导致在测试集上进行良好的校准预测,但它并不能保证在偏移的数据上进行校准。事实上,几乎所有其他方法(除了 vanilla)在偏移下的 Brier 得分方面都比最先进的事后校准(Temperature scaling)表现更好。虽然 SVI 在测试集上取得了最差的准确度,但当暴露在明显的偏移下时,它实际上以更大的幅度超过了所有其他方法。在图 1(c)中看到,SVI 在高置信度下给出了最高的准确度(或者反过来说,置信度高的错误频率要低得多),这对于高风险的应用是很重要的。大多数方法表现出非常低的熵(图 1(e)),并在完全 OOD 的数据上给出高置信度的预测(图 1(f)),也就是说,它们对完全 OOD 的数据是有把握的错误。

图 1 在 MNIST 上的结果

4.2 图像模型:CIFAR-10 和 ImageNet

本文研究了在两个基准图像数据集 CIFAR-10 和 ImageNet 上训练的残差网络在分布性转变下的预测分布情况。本文对 CIFAR-10 和 ImageNet 分别使用 20 层和 50 层的 ResNets。对于偏移的数据,使用 Hendrycks & Dietterich(2019)介绍的 80 种不同的变型。为了评估 CIFAR-10 模型对完全 OOD 数据的预测,使用 SVHN 数据集。

在图 2 和图 3 中总结了结果。图 2 检查了 CIFAR-10(顶部)和 ImageNet(底部)上模型对倾斜(高斯模糊)和 OOD 数据的预测分布。图 3 总结了 CIFAR-10(顶部)和 ImageNet(底部)在所有 80 种污染和强度组合中的精度和 ECE。随着倾斜程度的增加,两个数据集上的分类器显示出较差的准确性和校准。比较不同方法的准确度,发现在分布偏斜的情况下,ensembles 的准确度最高。比较不同方法的 ECE,观察到,虽然这些方法在较小的偏斜值下获得了可比的低 ECE 值,但在较大的偏斜值下,ensembles 优于其他方法。有趣的是,虽然 temperature scaling 实现了低偏差值的低 ECE,但 ECE 随着偏差的增加而显著增加,这表明 i.i.d.验证数据集上的校准不能保证分布偏差下的校准。此外,结果表明,虽然 temperature scaling 比普通方法有显著的帮助,但 ensembles 和 dropout 倾向于更好。

图 2 在 CIFAR-10 和 ImageNet 上的结果

图 3 分布偏移下的校准:箱线图显示了(a)CIFAR-10 和(b)ImageNet 上所有类型损坏下 Brier 分数和 ECE 的详细比较

总的来说,ensembles 在各指标中始终表现最佳,dropout 的表现始终优于 temperature scaling 和最后一层方法。虽然在 CIFAR 10 和 ImageNet 上方法的相对顺序是一致的(ensembles 的性能最好),但顺序与在 MNIST 上 SVI 的性能最好的方法有很大不同。有趣的是,LL-SVI 和 LL-Dropout 在倾斜数据集和 SVHN 上的表现比普通方法差。

4.3 文本模型

继 Hendrycks&Gimpel 之后,本文在 20 个新闻组数据集上训练了一个 LSTM,并评估了该模型在分布倾斜和 OOD 文本下的稳健性。使用偶数类(20 个类中的 10 个)作为分布,使用 10 个奇数类作为倾斜数据。

当测试数据由分布内数据和偏斜或完全 OOD 数据组成时,本文考察了置信度与准确度的关系,在本例中为十亿字基准(LM1B)。图 4(底行)显示了结果。Ensembles 显著优于所有其他方法,并在准确性与可信度之间实现更好的权衡。令人惊讶的是,LL-Dropout 和 LL-SVI 的性能比普通方法差,尤其是在完全 OOD 数据上测试时。

图 4 报告了分布内数据的预测熵直方图,并将其与倾斜和 OOD 数据集的预测熵进行了比较。正如预期的那样,大多数方法在完全 OOD 数据集上取得了最高的预测熵,其次是倾斜数据集,然后是分布内测试数据集。只有合集在偏斜数据上的熵一直较高,这也解释了为什么它们在图 4 第二行的置信度与准确度曲线上表现最好。与 vanilla 模型相比,Dropout 和 LL-SVI 在分布内数据和偏斜或 OOD 数据之间有更明显的分离。虽然 Dropout 和 LL-Dropout 在分布内的表现相似,但 LL-Dropout 在倾斜和 OOD 数据上表现出的不确定性比 Dropout 小。在倾斜的数据上,temperature scaling 似乎没有明显增加不确定性。

图 4 顶行:分布内(实线)、倾斜(虚线)和完全不同的 OOD(虚线)文本示例的预测分布熵直方图。底行:分别评估分布内和分布内移位文本示例(a、b)以及分布内和 OOD 文本示例(c、d)时的置信度得分与准确度和计数。

4.4 具有分类功能的广告点击模型

最后,在 Criteo Display Advertising Challenge 数据集上评估了不同方法的性能,该数据集是一个二元分类任务,由 37M 个示例组成,每个示例包含 13 个数字和 26 个分类特征。通过将每个分类特征重新分配给一个随机的新标记来引入倾斜,该标记具有控制倾斜强度的固定概率。这粗略地模拟了随着时间的推移,随着类别标记的出现和消失,在非平稳类别特征中观察到的一种倾斜。该模型由一个具有散列和嵌入分类特征的 3 隐藏层多层感知器(MLP)组成,其负对数似然值约为 0.5(竞赛优胜者为 0.44)。由于阶级不平衡(∼25%的示例为阳性),本文报告 AUC 而不是分类准确率

图 5 描述了这些实验的结果。观察到,在大多数倾斜值中,集合体在 AUC 和 Brier score 方面都有优势,随着倾斜度的增加,集合体和其他方法之间的性能差距一般都会增加。两种 Dropout 模型的变体在倾斜数据上都产生了更好的 AUC,并且在倾斜随机化值超过 60%时,Dropout 的 Brier 评分超过了集合体。事实证明,SVI 的训练具有挑战性,所产生的模型统一表现较差;LL-SVI 表现较好,但总体上没有改善 vanilla 模型。值得注意的是,temperature scaling 的 Brier 评分比 Vanilla 更差,表明在验证集上的事后校准实际上损害了数据集偏移下的校准。

图 5 Criteo 上的结果

5 启示和建议

本文针对不同的数据模式和体系结构,在数据集偏移的情况下,对量化预测不确定性的不同方法进行了大规模评估。本文得到的信息如下:

•无论采用何种方法,不确定性的质量都会随着数据集偏移的增加而降低。

•在 i.i.d.测试数据集上更好的校准和准确性通常不会转化为在数据集偏移下更好的校准。

•带有 temperature scaling 的事后校准导致在 i.i.d.测试和小的偏移值上有很好的校准不确定性,但随着偏移的增加,明显优于考虑了认识上的不确定性的方法。

•最后一层 Dropout 在偏斜和 OOD 数据集上表现出的不确定性比 Dropout 小。

•SVI 在 MNIST/CIFAR 上很有希望,但在 ImageNet 等较大的数据集和 LSTM 等其他架构上很难发挥作用。

•在本文的实验中,方法的相对排序大多是一致的(除了 MNIST)。MNIST 上方法的相对排序并不反映它们在其他数据集上的排序。

•深度合集似乎在大多数指标上表现最好,并且对数据集的变化更加稳定。本文发现,相对较小的合集规模(如 M=5)可能已经足够了。

本文希望这个基准对社区是有用的,并激发对数据集偏移下的不确定性的更多研究,这对现有的方法似乎具有挑战性。虽然本文只关注预测不确定性的质量,但应用可能还需要考虑方法的计算和内存成本,表现最好的方法往往比较昂贵。降低计算和内存成本,同时在数据集偏移下保持相同的性能,也将是一个关键的研究挑战。

致谢

本文由南京大学软件学院 2021 级硕士颜昌粤翻译转述,2020 级博士生尹伊宁审核。

0 阅读:0

互联不一般哥

简介:感谢大家的关注