定义:
横向联邦学习也称为按样本划分的联邦学习,可以应用于联邦学习的各个参与方的数据集有相同的特征空间和不同的样本空间的场景,类似于再表格视图中对数据进行水平划分的情况。
举例来说,两个地区的城市商业银行可能在各自的区域拥有非常不同的客户群体,所以他们的客户交集非常小,他们的数据集有不同的样本id。然而,他们的业务非常相似,因此他们的数据集的特征空间是相同的。这两家可以联合起来进行横向联邦学习以构建更好的风控模型。
关于横向联邦学习系统的安全性的定义,我们通常假设一个横向联邦学习系统的参与方都是诚实的,需要防范的对象是一个诚实但好奇的聚合服务器。即通常假设只有服务器才能使得数据参与方的隐私安全受到威胁。
以下是一些已提出的学习方法:
参与方独立地训练模型并只分享参数更新的子集,这是横向联邦学习的一种特殊形式。
在联邦学习框架下对用户模型更新或者对梯度信息进行安全聚合。
适用于模型参数聚合的加法同态加密,能够防御联邦学习系统里的中央服务器窃取模型信息或者数据隐私。
还有一种叫做深度梯度压缩的压缩方法,能够大幅度降低在大规模分布式训练中需要的通信宽带。
甚至,另一种考虑了恶意用户的安全模型也被提出,这带来了联邦学习新的安全挑战。当联邦学习训练结束时,聚合模型和整个模型的参数都会暴露给所有的参与方。
横向联邦学习架构
客户-服务器构架
由于资料的缺失,这一部分先不讨论。
对等网络架构
在该架构下,不存在中央服务器或者协调方。在这种架构中,横向联邦学习系统的K个参与方或者分布式训练方。每一个训练方负责只使用本地数据来训练同一个机器学习模型,此外,训练方们使用安全链路在相互之间传递模型参数信息。为了保证任意两方之间的通信安全,需要使用例如基于公共密钥的加密方法等安全措施。
由于对等网络架构中不存在中央服务器,训练方必须提前商定发送和接受模型参数信息的顺序,主要有两个方法可以达到这个目的:
- 循环传输
训练方被组织成一条链。第一个训练方将当前的模型参数发送给它的下一个训练方。该训练方接受来自上游的模型参数后,将使用来自本地数据集的小批量数据更新收到的模型参数。之后,它将更新后的模型参数传输给下一个训练方。这一过程将被持续重复,直到模型参数收敛或达到允许的组大训练时间。
2.随机传输
第k个训练方选取i,并将模型参数发送给训练方i。当第i个训练方收到来自第i个训练方的模型参数后,它将使用来自本地数据集的数据的mini-batch更新收到的模型参数。之后,第i个训练方选一个j,并将自己的模型参数发送给训练方j。这一过程将会重复,直到K个训练方同意模型参数收敛或达到允许的最大训练时间。这种方法叫做Gossip学习。
与客户-服务器相比,对等网络架构的一个明显优点便是除去了中央服务器,而这类服务器在一些实际应用中可能难以获得或建立。但这一特性,也可能带来一些坏处,例如在循环传输模式中,由于没有中央服务器,权重参数并不分批量更新而是连续更新,这将导致训练模型耗费更多的时间。