目标数据在迁移学习中的价值

互联不一般哥 2024-03-15 00:15:07

摘要

我们的目标是了解迁移学习中附加标记或未标记目标数据的价值,为此,我们根据源和目标样本量建立了第一个极大最小率,并表明性能限制是由源和目标之间的差异捕获的,我们称之为转移指数。

有趣的是,如果分布参数是事先已知的,那么获得极大极小值类似于忽略其中一个源样本或目标样本。此外,我们还展示了实际的决策可以以极大极小最优的方式进行,而不用知道或估计分布参数,也不用知道源和目标之间的差异。

1 介绍

迁移学习通常涉及获取一定的目标数据,并如何最好地结合源数据和目标数据的进行各种实际决策;然而,关于迁移的理论文献只针对没有标记的数据。

我们的目标是了解目标标签的价值。我们根据源和目标样本大小建立了边界类的第一个极大极小率,并证明了性能被源数据和目标之间差异所局限,我们称之为转移指数。

转移指数的第一个概念,称为 ρ,是根据超额风险的差异来定义的。我们揭示出:最好的比率可能仅仅通过忽略了源或目标数据集的最小信息来得到。有趣的是,设 Np 和 Nq 分别是源数据 P 和目标 Q 的标签数据,我们证明了最优(Np,Nq)率是通过一种通用方法实现的,类似于迁移假设。

然后我们考虑一个边际转移指数的相关概念,称为 γ,定义了边缘 Px,Qx。这是由于迁移过程中的实际决策往往使用更便宜的未标记数据。当实际决策是由观察到的边缘 Px、Qx 的变化驱动时,边缘概念 γ 最适合捕获性能。

特别是,边缘 γ 有助于捕获以下场景的性能极限:

• 最小化采样成本。给定带标签的源和目标数据的不同成本,以及最多期望的目标超额误差 e,如何使用未标记数据来决定一个最优抽样方案,使标记成本最小化,同时使误差不超过 e。

• 转移的选择。给定两个源 P1 和 P2,每个源都与 Q 相隔一段未知距离,给定未标记数据和来自 Q 的数据,如何决定 P1 和 P2 中哪一个更好地转移到目标 Q。

• 重新加权。给定来自 Q 的一些未标记数据,以及一些带标记(也可以没有标记)的 Q 数据,如何最优地重加权源数据 P 以达到最佳的目标性能。虽然动机不同,但这个问题与最后一个问题有关。

虽然最优决策在上述场景严格依赖于未知的分布参数,我们表明,这样的实际决策可以在不知道参数分布的情况下接近最优,也不需要估计 γ。此外,未标记的采样复杂度可以保持很低。最后,本工作中描述的方法虽仍在理论阶段,但也为如何以数据驱动的方式做出各种实用的最优转移决策提供了新的见解。

相关工作。有许多关于迁移的理论文献,与本工作的主要区别在于,它们主要关注没有标记目标数据的情况,并考虑了 P 和 Q 之间不同的差异。我们将这些不同的概念进行了对比。

2 设置和定义

我们考虑一个分类器,输入为 X,有一些可测量的空间,输出为 Y,H 表示卡方分布上的一个固定假设类。VC 维数为 dh,目标是在 X,Y 的联合分布 Q 下,以一个较低的误差来获得一个分类器 h。学习器可以获得两种带标签数据 Sp 和 Sq。我们的目标是限制超额误差。

定义 1. 对 D∈{Q,P},定义 h 的超额误差为:

分布条件:我们考虑了分类和迁移中的各种传统假设。第一个是噪音中的伯恩斯坦类条件,

例如常见的 Tsybakov 噪声条件,在贝叶斯分类器案例中,对应的回归函数 np(x)=E[Y|x]。

下一个假设更强,但可以看作协变量偏移假设的松弛版本。

3 从 P 到 Q 的迁移指数

我们考虑从 P 到 Q 的不同的差异定义,这将紧密的捕获到从 P 迁移到 Q 的复杂性。

定义 2. 设 ρ>0 为从 P 到 Q 的迁移指数,存在 Cρ 使得

我们感兴趣的是在足够小的 Cρ 获得最小的 ρ。

定义 3. 设 γ>0 为从 P 到 Q 的边缘转移指数,存在 Cγ 使得

命题 1. 假设(NC)和(RCS)成立,P 有边缘转移指数(γ, Cγ),那么 P 有转移指数 ρ≤γ/βρ。

3.1 和其他差异定义的关联与样例

例 1.(不重叠支持)指标 γ,ρ 不需要 Qx 和 Px 有重叠支持,如图所示。

其中 H 是一类齐次线性分隔子,PQ 在球体表面上是均匀的。

例 2.(较大的 da,dy)设 H 为直线上单边阈值的类,Px=U[0,2],Qx=U[0,1],阈值为 1/2,然后就能确定所有的 ht 阈值,边缘转移指数 γ=1。现在,令 ht 的 t 为 1/2,da=dy=1/4,这意味着无法以快于 1/4 的速度进行转移。我们还可以让这种情况变得更糟,例如让 da=dy=1/2。首要问题是这些差异在分歧较大的区域会有更大的差异,本地化迁移会减轻这一问题。

例 3.(最小 γ,ρ,以及转移的固有不对称性)假设 H 是直线上的一类单边阈值类,h=hp=hq为 0 处的阈值,边际 Qx 具有均匀密度 fq,而对于一些 γ≥1,Px 密度为 fp(t),Qx/Px 的极限为无穷大。因此我们看到 γ 可能是最小的转移指数,从 Q 转移到 P 比从 P 转移到 Q 更容易,这也难以被对称的距离概念捕获。

例 4.(超转移与本地化)接示例 2,我们在 0 处让 0<γ<1,fp(t)∝|t|^(γ-1),Qx=U[-1,1],γ 依旧为 P 到 Q 的转移指数。我们可以得到更快的转移速率 εq,称之为超转移,即源数据可以让我们更快的达到 h*。再考虑用本地化来修正 da=dy 的误差:

4 下界

让 F(NC)(ρ, β_P, β_Q, C)表示(P,Q)的分布对,通过理论分析验证 ρ 的下界。

理论 1.(ρ 下界)假设 H 的 VC 维度数 d_H ≥ 9,让 h^=h^(S_P , SQ)表示分类器,可以获得两组独立的带标签样本 S_P~P nP 和 S_Q~Q nQ,假设 np 和 nq 足够大,可以得到

然后,对任意 h^,若存在(P,Q)∈F(NC)(ρ, β_P , β_Q, 1),以及常数 c 使得

这样,我们就可以将 ρ 的上界转化成 γ 的上界,因为 ρ ≤ γ/β_P。我们研究了这一上界是否足够紧凑,如给定一个类 F(NC)(ρ, β_P , β_Q, C),是否存在 ρ = γ/β_P 实现速率的分布。

理论 2.(γ 下界)假设类 H 的 vc 维度为 d_H, [ dH/2] ≥ 9。令 h=h(S_p,S_Q) 表示分类器,可以获得两组独立的带标签样本 S_P~P nP 和 S_Q~Q nQ,假设 np 和 nq 足够大,可以得到

然后,对任意 h^,若存在(P,Q)∈F(NC)(ρ, β_P , β_Q, 2),边缘转移指数 γ = ρ · β_P ≥ 1, C_γ ≤ 2,以及常数 c 使得

5 上界

引理 1.令

以至少 1-δ/3 的概率有

考虑如下算法,我们希望得到该最优化问题的解 h^。

从形式上,我们可以得到以下学习结果:

理论 3(最小极大上界).假设(NC),令^h 为算法 1 的解,对于一个依赖 ρ, C_ρ, β_P , c_β_P , β_Q, c_β_Q , 的常数 C,最小概率为 1-δ,我们有

注意,根据之前的下界理论,这一边界是对对数因子最优的。

另一种选择方案。交换 P 和 Q 的角色,也可以得到类似的结论:

这个版本更接近假设转移的实际效益,先访问数据集 P 能够提前计算一些可行的集合。但是这一过程要求 h_P 和 h_Q 不能相隔太远,也就是从 P 中得到的数据 Sp 不能有误导性。

6 最小化采样成本

在这一部分,我们将讨论从 Q 中访问未标记数据的价值。其思想是获得未标记的数据比标记的数据代价要小得多,因此在许多应用程序中,获得未标记的数据是可行的。

形式上,假设我们有一个值 ε 作为输入,要求我们获得一个分类器且 EQ(ˆh) ≤ ε,然后,我们可以从 P 或 Q 中提取样本,以不同的成本来实现这一目标。假设:c_P : N → [0, ∞), c_Q : N → [0, ∞)是损失函数,c_P (n)是从 P 中获取 n 个数据的损失函数,c_Q(n)同理。

定义 5.定义

我们称 c* = c*(ε;c_P ,c_Q)为从 P 或 Q 采样的最小极大最优成本。

算法流程:我们假设可以从 Qx 中获得未标记数据集 Uq,令

对于任意标记的数据集 S,定义^h(s)= argminh∈HR_s(h),且给定一个额外数据集 U,满足

现在我们有了如下算法流程:

算法 2 输出了一个分类器 h,概率至少为 1- δ,我们有 EQ(ˆh) ≤ ε,总样本损失最多为~O(c*)

因此,当 c*从样本 P 中采样时,我们最终从 Q 中获得的标记数据很少。这样,P 的成本就会比 Q 的要低,参数(β_Q,β_P ,γ)会对每个目标样本都有贡献。更进一步,我们通过自适应方式得到了这些结论,不用知道相关参数。

鸣谢

我们感谢 Mehryar Mohri 进行的几次非常重要的讨论,帮助确定了关于这一主题的许多基本问题和方向。

本文由南京大学软件学院 2021 级专业硕士周宣策翻译并转述,刘佳玮审核。

0 阅读:0

互联不一般哥

简介:感谢大家的关注