![联邦学习实战](https://wfqqreader-1252317822.image.myqcloud.com/cover/730/38209730/b_38209730.jpg)
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人
5.3 横向数据集切分
为了模拟横向联邦建模的场景,首先在本地将乳腺癌数据集切分为特征相同的横向联邦形式,假设当前有两方参与横向联邦训练,如图5-3所示。
![](https://epubservercos.yuewen.com/7DD80E/20118172408701706/epubprivate/OEBPS/Images/40792_80_1.jpg?sign=1739368043-vnX9sYdJ88IYb9go84RJjm1sjEw15r25-0-d032de1e6e814828059f453eee097ab6)
图5-3 两方参与的横向联邦训练
取乳腺癌数据集的前469条样本作为训练样本数据,后100条数据作为测试数据,数据切分的策略如下。
• 训练数据切分:将469条数据按行切分为两份数据,选取其中前200条作为公司A的本地数据,保存为breast_1_train.csv,将剩余的269条数据作为公司B的本地数据,保存为breast_2_train.csv。
• 测试数据集:测试数据集不需要切分,两个参与方使用相同的一份测试数据即可,文件命名为breast_eval.csv。数据分布如图5-4所示。
![](https://epubservercos.yuewen.com/7DD80E/20118172408701706/epubprivate/OEBPS/Images/40792_80_2.jpg?sign=1739368043-zNz7t9Tqz4Bxl7hePKJ2mscAFHSQmdF0-0-c2159a5123012bc7335a6bded05f38f7)
图5-4 横向数据分布