当前位置: X-MOL 学术arXiv.cs.DC › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
Byzantine-Resilient High-Dimensional Federated Learning
arXiv - CS - Distributed, Parallel, and Cluster Computing Pub Date : 2020-06-22 , DOI: arxiv-2006.13041
Deepesh Data and Suhas Diggavi

We study stochastic gradient descent (SGD) with local iterations in the presence of malicious/Byzantine clients, motivated by the federated learning. The clients, instead of communicating with the central server in every iteration, maintain their local models, which they update by taking several SGD iterations based on their own datasets and then communicate the net update with the server, thereby achieving communication-efficiency. Furthermore, only a subset of clients communicate with the server, and this subset may be different at different synchronization times. The Byzantine clients may collaborate and send arbitrary vectors to the server to disrupt the learning process. To combat the adversary, we employ an efficient high-dimensional robust mean estimation algorithm from Steinhardt et al.~\cite[ITCS 2018]{Resilience_SCV18} at the server to filter-out corrupt vectors; and to analyze the outlier-filtering procedure, we develop a novel matrix concentration result that may be of independent interest. We provide convergence analyses for strongly-convex and non-convex smooth objectives in the heterogeneous data setting, where different clients may have different local datasets, and we do not make any probabilistic assumptions on data generation. We believe that ours is the first Byzantine-resilient algorithm and analysis with local iterations. We derive our convergence results under minimal assumptions of bounded variance for SGD and bounded gradient dissimilarity (which captures heterogeneity among local datasets). We also extend our results to the case when clients compute full-batch gradients.

中文翻译:

拜占庭弹性高维联邦学习

我们在联邦学习的推动下,在恶意/拜占庭客户端存在的情况下,通过局部迭代研究随机梯度下降 (SGD)。客户端不会在每次迭代中与中央服务器通信,而是维护其本地模型,它们通过基于自己的数据集进行多次 SGD 迭代来更新这些模型,然后与服务器通信网络更新,从而实现通信效率。此外,只有一部分客户端与服务器进行通信,并且该子集在不同的同步时间可能会有所不同。拜占庭客户端可以协作并向服务器发送任意向量以破坏学习过程。为了对抗对手,我们采用了 Steinhardt 等人的高效高维鲁棒均值估计算法。~\cite[ITCS 2018]{Resilience_SCV18} 在服务器上过滤掉损坏的向量;为了分析异常值过滤程序,我们开发了一种可能具有独立意义的新型矩阵浓度结果。我们为异构数据设置中的强凸和非凸平滑目标提供收敛分析,其中不同的客户端可能具有不同的本地数据集,并且我们不对数据生成做出任何概率假设。我们相信我们的是第一个具有局部迭代的拜占庭弹性算法和分析。我们在 SGD 的有界方差和有界梯度不相似性(捕获局部数据集之间的异质性)的最小假设下得出收敛结果。我们还将我们的结果扩展到客户端计算全批次梯度的情况。为了分析异常值过滤程序,我们开发了一种可能具有独立意义的新型矩阵浓度结果。我们为异构数据设置中的强凸和非凸平滑目标提供收敛分析,其中不同的客户端可能具有不同的本地数据集,并且我们不对数据生成做出任何概率假设。我们相信我们的是第一个具有局部迭代的拜占庭弹性算法和分析。我们在 SGD 的有界方差和有界梯度不相似性(捕获局部数据集之间的异质性)的最小假设下得出收敛结果。我们还将我们的结果扩展到客户端计算全批次梯度的情况。为了分析异常值过滤程序,我们开发了一种可能具有独立意义的新型矩阵浓度结果。我们为异构数据设置中的强凸和非凸平滑目标提供收敛分析,其中不同的客户端可能具有不同的本地数据集,并且我们不对数据生成做出任何概率假设。我们相信我们的是第一个具有局部迭代的拜占庭弹性算法和分析。我们在 SGD 的有界方差和有界梯度不相似性(捕获局部数据集之间的异质性)的最小假设下得出收敛结果。我们还将我们的结果扩展到客户端计算全批次梯度的情况。我们为异构数据设置中的强凸和非凸平滑目标提供收敛分析,其中不同的客户端可能具有不同的本地数据集,并且我们不对数据生成做出任何概率假设。我们相信我们的是第一个具有局部迭代的拜占庭弹性算法和分析。我们在 SGD 的有界方差和有界梯度不相似性(捕获局部数据集之间的异质性)的最小假设下得出收敛结果。我们还将我们的结果扩展到客户端计算全批次梯度的情况。我们为异构数据设置中的强凸和非凸平滑目标提供收敛分析,其中不同的客户端可能具有不同的本地数据集,并且我们不对数据生成做出任何概率假设。我们相信我们的是第一个具有局部迭代的拜占庭弹性算法和分析。我们在 SGD 的有界方差和有界梯度不相似性(捕获局部数据集之间的异质性)的最小假设下得出收敛结果。我们还将我们的结果扩展到客户端计算全批次梯度的情况。我们相信我们的是第一个具有局部迭代的拜占庭弹性算法和分析。我们在 SGD 的有界方差和有界梯度不相似性(捕获局部数据集之间的异质性)的最小假设下得出收敛结果。我们还将我们的结果扩展到客户端计算全批次梯度的情况。我们相信我们的是第一个具有局部迭代的拜占庭弹性算法和分析。我们在 SGD 的有界方差和有界梯度不相似性(捕获局部数据集之间的异质性)的最小假设下得出收敛结果。我们还将我们的结果扩展到客户端计算全批次梯度的情况。
更新日期:2020-08-18
down
wechat
bug