迁移学习导论
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

4.5 迁移学习理论

传统的机器学习通常采用数据“独立同分布”这一假设,即假设训练数据和测试数据是在同一数据分布中相互独立地采样出来的,并基于此构建了诸如PAC可学习理论[Valiant,1984]的机器学习理论。这些理论表明模型的泛化误差可以由模型的训练误差以及训练样本的数目所界定,并且会随着训练样本的增加而减小。在迁移学习中,源域和目标域的数据通常来自不同的数据分布,使得在源域上训练好的模型很难直接在目标域数据上取得好的效果,因此如何衡量并降低两个领域之间的分布差异从而使得源域上的模型可以更好地泛化到目标域成为迁移学习领域的核心问题。

本节以迁移学习中的一个子领域——无监督域适应为例,从理论上对迁移学习进行分析。在过去的二十多年里,很多相关的理论和算法被提出以解决上述问题。在理论层面,研究人员提出了 [Ben-David et al.,2007]和 [Ben-David et al.,2010]等距离度量,并基于此构建了相应的学习理论。受上述理论的启发,研究人员提出不同的算法,显著提升了模型的泛化效果。

文献[Redko et al.,2020]将现有的域适应理论分为以下三类:基于差异的误差界限[Ben-David et al.,2007,Ben-David et al.,2010],基于积分概率矩阵的误差界限[Courty et al.,2017,Dhouib et al.,2020,Redko et al.,2017]和基于PAC-Bayesian的误差界限[Germain et al.,2013,Germain et al.,2015]。[Ben-David et al.,2007]针对于二分类问题,基于0-1损失函数和,提出了第一个迁移学习和领域自适应的理论框架。根据该理论可知,分类器在目标域上的泛化误差由分类器在源域上的经验误差、两个域之间的分布差异和一些常数项所界定。该框架也成为后续算法设计的指导框架。Mansour等人将该理论扩展到对于任意满足三角不等式的损失函数[Mansour et al.,2009]。基于积分概率矩阵的理论主要包括优化传输[Courty et al.,2017,Dhouib et al.,2020,Redko et al.,2017]和最大均值差异两类。前者通常采用Wasserstein距离进行域差异度量,后者采用最大均值差异(Maximum Mean Discrepancy,MMD)[Borgwardt et al.,2006]进行度量。基于这两种度量,研究人员也提出相应的理论界限。在基于PAC-Bayesian的这些理论中[Germain et al.,2013,Germain et al.,2015],模型需要对一组分类器进行多数投票,根据其不一致性进行泛化误差的界定。本节主要关注基于差异的理论成果。

4.5.1 概念与符号

在迁移学习中,源域样本和目标域样本分别来自两个不同的数据分布,我们将其分别记作PQ。这两个分布是在样本和内积空间上的联合分布,其中,对于二分类问题,,对于多分类问题,K为类别个数。我们用表示在数据分布上采样出的样本集合。在无监督问题中,存在一个在源域分布P中采样的有标注数据集合和在目标域分布Q中采样的无标注数据集合

在二分类的场景下,定义分布上真实的标签函数为。对于任意一个分类器,分类器的误差被定义为

因此,分类器h在源域和目标域上的分类误差可以被分别表示为

分类器在源域和目标域样本集合上的经验误差被记作。在多分类的场景下,误差的定义会在下文进行相应的修改。

4.5.2 基于的理论分析

的理论[Ben-David et al.,2007]最早于2006年在NIPS(现改名为NeurIPS)上提出,后续的工作扩展到2010年的Machine Learning期刊[Ben-David et al.,2010]。在这个理论中,作者考虑二分类的情形,并基于0-1损失函数推导出了相应的理解界限。

定义1  给定两个分布PQ,令为假设类,Ih)为特性函数,其中,即xIh)⇔hx)=1。被定义为

在有限的样本集上,通常采用经验来进行度量。对于一个对称的假设类和两个样本数为m的样本集,经验的可以表示为

其中为指示函数,基于,作者提出了相应的学习理论。

定理1 基于的目标域误差界 令表示一个VC维为d的假设空间,给定从源域上以iid(Independent and identically distributed)方式采样的大小为m的样本集,则至少以1−δ的概率,对于任意一个

其中,e是自然底数,λ*=ϵsh*)+ϵth*)是理想联合误差,是在源域和目标域上的最优分类器。

基于定理1,可以发现,目标域上的泛化误差由以下四项所界定:1)源域上的经验误差,2)源域和目标域之间的分布差异,3)理想联合误差,4)与样本数和VC维等相关的常数项。基于,作者又提出了,我们不再赘述。

对比本章提出的迁移学习方法的统一表征公式(4.3.1),不难看出表征公式在形式上与上述定理完全一致:表征公式的第一项对应于模型在源域上的误差,第二项则对应于源域和目标域的差异。因此,这些理论分析直接证明了本书所归纳的迁移学习统一表征的正确性。

理想联合误差λ无法准确计算,因为其需要目标域上的真实标签。在很多情况下,我们都假设λ*是一个很小的值,即存在一个分类器使得其在源域和目标域上的分类误差都比较小,从而使得我们可以进行知识迁移。在此假设下,影响目标域泛化误差的就只有前两项:源域泛化误差和两个域之间的分布差异。受定理1的启发,Ganin等人提出了领域对抗网络算法[Ganin and Lempitsky,2015,Ganin et al.,2016],基于域判别器来衡量两个域的差异,从而完成迁移。关于DANN的详细知识请见本书第10章。

4.5.3 基于的理论分析

基于空间和,原作者团队提出了更进一步的理论分析[Ben-David et al.,2010]。

定义2 对称差假设空间 对于一个假设空间,对称差假设空间是满足以下条件的空间的集合:

其中⊕表示异或操作。在对称差假设空间上,被定义为

定义3  对于任意的h

基于,作者又进一步给出了新的误差界限:

定理2 基于的目标域误差界 令是一个VC维为d的假设空间。是从分布PQ中采样出的大小为m的样本集。则对于任意的δ∈ (0,1)和任意的,至少有1 −δ的概率有

为了便于读者的理解,下面附上该理论的证明过程:

上述推导过程中第4行到第5行的目标是给|ϵthh*)−ϵshh*)|寻找一个上界,因此距离实际上是定义出的上界。通过比较。我们可以发现是在假设空间取时的特例。基于定理2,Saito等人提出了MCD(Maximum Classifier Discrepancy)算法[Saito et al.,2018a],通过设计两个分类器的差异来近似,进而降低两个领域之间的差异。

4.5.4 基于差异距离的理论分析

只考虑损失函数为0-1损失函数的情景。在此基础上,Mansour等人[Mansour et al.,2009]将其扩展到任意满足三角不等式的损失函数。作者首先定义了差异距离(Discrepancy Distance):

定义4 令表示一个类假设空间,表示在上的损失函数,两个分布PQ之间的差异距离discL被定义为

可以看出,差异距离实际上是距离从0-1损失函数向任意损失函数的扩展。为了方便进行误差界限的推导,约束损失函数需满足三角不等式,即discLPQ)≤ discLPM)+ discLMQ)。

定义,其中fQ是在分布Q上的标签函数。相似地,定义LPh,fP)的最优分类器。为了能够进行迁移,作者假设这两个最优分类器之间的平均损失很小。和定理1,2假设在源域和目标域上存在一个最优分类器不同,此理论假设源域和目标域各自存在一个最优分类器,并且这两个分类器之间差异很小。

定理3 基于差异距离的目标域误差界 假设损失函数L是对称的并且满足三角不等式,则对于任意,都有

对比定理2,作者也进行了一些简单的分析。如假定,则有,在此时,定理3变成了LQh,fQ)≤LQh*fQ)+LPhh*)+disc(PQ),定理2变为了LQhfQ)≤LQh*fQ)+LPhfP)+ LPh*fP)+disc(PQ)。根据三角不等式可以有LPhh*)≤LPhfP)+ LPh*fP),因此在此条件下,定理3是比定理2更紧的一个误差界限。

4.5.5 结合标签函数差异的理论分析

定理1和定理2已经被提出和使用了很多年。基于这些定理的启发,许多算法在设计时,其目标通常是在最小化源域分类损失的同时学习一个领域无关的特征。然而这类算法在某些情况下可能会失效。在文献[Zhao et al.,2019]中,Zhao等人构造了一个反例,尽管两个域之间的差异为0,但对于任意一个分类器,其在源域和目标域上的分类误差之和始终为1。在这种极端条件下,最小化源域上的分类误差,反而会使目标域上的误差变大。

针对这个问题,Zhao等人提出了一个新的理论。

定理4 基于标签函数差异的目标域误差界 令fsft表示源域和目标域上的标签函数,表示从两个域中采样出的样本,每个样本集的大小都为m表示Redemacher复杂度。那么,对于任何一个,都有

其中,

该泛化界限可以分为三部分,第一部分(第一行)为域适应部分,包括源域经验误差,经验和标签函数差异。第二部分(第二行)对应着对假设空间的复杂度测量,第三部分(第三行)描述有限样本造成的误差。

对比定理4和定理2,最大的不同是定理4中的项和定理2中的λ*项,后者依赖对假设空间的选择,而前者则不需要。并且在定理4中,揭示了条件偏差的问题,可以很好地解释上面的反例。

本节通过介绍几个经典的迁移学习理论研究工作,期望读者能够对理论有一定的理解,以便在今后遇到相关的问题时能够灵活运用。需要指出的是,除本节介绍的理论之外,还存在其他的一些研究工作。并且,迁移学习理论的研究一直在不断发展着;由于篇幅所限,我们不能一一展开介绍,请感兴趣的读者持续关注最新的研究进展。

[1]请见链接4-1。