迁移学习导论
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

4.3 迁移学习统一表征

得到分布差异的统一表征后,本节尝试用一个学习框架对迁移学习的基本方法进行统一的表征和解释。一个好的问题定义和表征是解决问题的前提。由于结构风险最小化的准则在机器学习中非常通用,因此,我们借鉴此准则对迁移学习问题进行形式化的统一表征。我们的期望是,在统一表征的视角下,读者能够对迁移学习的问题有着更为宏观和深刻的把控,以便用来解决特定的问题。

回到公式(2.2.1)中表示的SRM准则下。在迁移学习问题中,我们期望迁移学习算法可以在目标域没有标签的情况下,还能借助于源域,学习到目标域上的一个最优的模型。在这个过程中能够运用一些手段来减小源域和目标域的数据分布差异。因此,我们从SRM准则出发,可以将迁移学习统一表征为下面的形式:

其中:

为源域样本的权重,vi ∈ [0,1]。Ns为源域样本的数量。

T为作用于源域和目标域上的特征变换函数。

• 为方便理解,我们采用来计算平均值。读者应注意,显式引入样本权重v后,平均值亦需更新为加权平均值。具体计算方式并不统一,需要根据问题来相应处理。

注意到我们用来代替SRM中的正则化项Rf)。此替代并非等价,只是形式上的替代。事实上,由于正则化项的广泛应用,通常我们可以在模型的目标函数中加入特定的正则化项。为了强调迁移学习的特殊性,我们重点介绍R(·,·)这一项。为了叙述方便,将这一项称为迁移正则化项(Transfer Regularization)。

在统一表征下,迁移学习的问题可以被大体概括为寻找合适的迁移正则化项的问题。也就是说,相比于传统的机器学习,迁移学习更强调发现和利用源域和目标域之间的关系,并将此表征作为学习目标中最重要的一项。

这个统一表征足以概括表达所有的迁移学习方法吗?

答案是:可以。

具体而言,我们可以通过对公式(4.3.1)中viT取不同的情况,对迁移学习的方法进行表征,由此也派生出了三大类迁移学习方法:

1. 样本权重迁移法。此类方法学习目标是学习源域样本的权重vi

2. 特征变换迁移法。此类方法对应于vi=1,∀i,目标是学习一个特征变换T来减小正则化项R(·,·)。

3. 模型预训练迁移法。此类方法对应于vi=1,∀i。在此种方法下,目标是如何将源域的判别函数fs对目标域数据进行正则化和微调。

诚然,不同的参数设定可以同时发生。例如,如果同时学习viT,则对应于样本权重和特征变换同时进行的迁移方法,这显然可以被视为上述方法的扩展,因此并不讨论这类方法。

这三大类迁移方法基本上概括了绝大多数迁移方法的类型。我们将在后续的三个章节中系统地讲解每类迁移方法的基本形式和解决方案。在此之前,先简要叙述这几类方法。

4.3.1 样本权重迁移法

样本权重迁移法的出发点非常直接:决定迁移学习成功与否的关键是源域和目标域的相似程度。也就是说,两个领域之间相似度越高,迁移学习的表现越好。这启发我们从源域中选择一个数据样本子集,使得选择后的可以足够表征源域中的所有信息,并且之间的相似度达到最大。而这个操作可以通过对vi的求解达成。

此时,并不需要显式求解特征变换函数T,因为如果有一种特定的样本权重自适应方法能够选择出足够有代表性的,便可以直接通过经验风险最小化来学习最优的迁移学习模型f

我们将在接下来的第5章详细介绍样本权重迁移法。

4.3.2 特征变换迁移法

特征变换迁移法与概率分布差异的度量直接相关。如果我们假定源域和目标域中所有样本均是非常重要的(即vi=1,∀i),则迁移学习的目标就变成了:如何求解特征变换T,使得特征变换后的源域和目标域概率分布差异达到最小。

如何求解这样的特征变换?我们将特征变换法大致分为两大类别:统计特征变换和几何特征变换。其中,统计特征变换的目标是通过显式最小化源域和目标域的分布差异来进行求解;而几何特征变换的目标则是从几何分布出发,隐式地最小化二者的分布差异。

什么是显式和隐式?显式对应于直接寻找一种分布差异度量方法来计算源域和目标域的分布差异。例如欧氏距离、余弦相似度、马氏距离等,均可以充当距离函数度量。而类似于距离度量的一些方法,例如Kullback-Leibler散度(KL divergence)、Jensen-Shannon divergence、互信息(Mutual information)等,均可充当上述显式度量。

另一方面,如果以度量学习(metric learning)的观点来看待距离度量,则上述的距离可以看成预先定义的距离,它们在绝大多数情况下都可使用。但是,对于动态变化的数据分布而言,这种预先定义的距离,往往不足以表征分布之间的差异。此时我们自然会想,有没有另一种距离,它不是预先定义好的,而是可以在数据中动态学习的、更适合数据分布的度量?

例如,从生成对抗网络(Generative Adversarial Networks)[Goodfellow et al.,2014]的观点来看,网络中的判别器用来判断数据来自真实图像还是噪声,当其无法分别真实图像和由噪声生成的图像时,我们则认为判别器学习到了领域不变的特征。此时,这种判别器网络就可以被看成一种隐式距离。

我们将在接下来的第6章和第7章中详细介绍特征变换迁移法。

4.3.3 模型预训练迁移法

第三种比较常用的方法则是模型预训练迁移法。也就是说,如果已经有一个在源域上训练好的模型fs,并且目标域本身有一些可供学习的有标签数据,则可以直接将fs应用于目标域上,再进行微调。此时可以重点关注在微调过程中目标域的情况,而不用额外考虑迁移正则化项(或者一并考虑)。这种预训练–微调(Pretrain-finetune)的模式,已被广泛应用于计算机视觉(如ImageNet上预训练模型)、自然语言处理(Transformer、BERT)等领域。

我们将在接下来的第8章中详细介绍预训练方法。以基于深度学习的预训练方法为基础,我们陆续介绍基于深度学习(第9章)和对抗学习(第10章)的迁移方法。

4.3.4 小结

从上面的表述中我们看到,本小节介绍的统一的迁移学习表征方法,可以被应用于大多数流行的迁移学习方法中。统一表征及三大类迁移方法可以被总结为表4.2的形式。

表4.2 统一表征及三大类迁移方法

值得注意的是,每大类方法与其他类别之间并不孤立。并且,这种定义方法也可以被自然地扩展到深度学习中。在之后的章节里我们将逐步揭开每种方法的面纱。