1.4.1 纵向联邦学习
纵向联邦学习主要对应上面数据集特征的第二种情况,如果两个或者多个数据集中的相同的用户样本较多,那么我们就按照纵向切分的方式从数据集中取出用户样本完全相同但是用户特征不同的数据进行训练。简单来说,纵向联邦学习根据特征维度进行切分(如图1-2所示),是一种基于特征维度的联邦学习方式。
图1-2 纵向联邦学习示意图
目前,很多模型都已经在纵向联邦学习中得到了较好的应用,如人工神经网络模型[31]、逻辑回归模型[32]、随机森林模型[33]等。
纵向联邦学习将多个参与方的数据集中的特征汇总在一起,并且通过同态加密等方式保护数据隐私安全,其中用户模型是一致的。在纵向联邦学习中,各方都使用一致的方法模型(数据不同),因此可以通过联合模型管理所有的模型。在文献[30]中,研究者将纵向联邦学习总结为
式中,DA指的是A公司的数据集,DB指的是B公司的数据集;XA指的是A公司的特征,YA指的是A公司的标签,IA指的是A公司的用户样本。A和B为不同的公司。同理,XB指的是B公司的特征,YB指的是B公司的标签,IB指的是B公司的用户样本。
下面通过一个公司A与信贷公司的合作案例来理解纵向联邦学习的建模过程。公司A作为数据提供方,拥有大量用户的行为特征和部分信贷数据;信贷公司拥有大量的用户信贷数据。现在对公司A数据和信贷公司数据中同一批用户进行联邦建模,就属于纵向联邦学习。我们统一利用双方的数据信息建立模型,通过纵向联邦学习建模之后取得了很好的实验结果,不同用户的风险识别KS(Kolmogorov-Smirnov)指标均大幅度上升,使得风控模型对信用良好用户和失信用户有更好的区分,如图1-3所示。
图1-3 纵向联邦学习建模的实验结果
图1-3中横轴分别为仅使用公司A的数据、仅使用信贷公司的数据和使用双方的数据进行联邦建模的三种情况,客群1和客群2分别表示两个不同客群,纵轴的KS指标表示对信用良好用户和失信用户的区分度。