当前位置: X-MOL 学术arXiv.cs.DC › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
CFedAvg: Achieving Efficient Communication and Fast Convergence in Non-IID Federated Learning
arXiv - CS - Distributed, Parallel, and Cluster Computing Pub Date : 2021-06-14 , DOI: arxiv-2106.07155
Haibo Yang, Jia Liu, Elizabeth S. Bentley

Federated learning (FL) is a prevailing distributed learning paradigm, where a large number of workers jointly learn a model without sharing their training data. However, high communication costs could arise in FL due to large-scale (deep) learning models and bandwidth-constrained connections. In this paper, we introduce a communication-efficient algorithmic framework called CFedAvg for FL with non-i.i.d. datasets, which works with general (biased or unbiased) SNR-constrained compressors. We analyze the convergence rate of CFedAvg for non-convex functions with constant and decaying learning rates. The CFedAvg algorithm can achieve an $\mathcal{O}(1 / \sqrt{mKT} + 1 / T)$ convergence rate with a constant learning rate, implying a linear speedup for convergence as the number of workers increases, where $K$ is the number of local steps, $T$ is the number of total communication rounds, and $m$ is the total worker number. This matches the convergence rate of distributed/federated learning without compression, thus achieving high communication efficiency while not sacrificing learning accuracy in FL. Furthermore, we extend CFedAvg to cases with heterogeneous local steps, which allows different workers to perform a different number of local steps to better adapt to their own circumstances. The interesting observation in general is that the noise/variance introduced by compressors does not affect the overall convergence rate order for non-i.i.d. FL. We verify the effectiveness of our CFedAvg algorithm on three datasets with two gradient compression schemes of different compression ratios.

中文翻译:

CFedAvg:在非 IID 联合学习中实现高效通信和快速收敛

联邦学习 (FL) 是一种流行的分布式学习范式,其中大量工人在不共享训练数据的情况下共同学习模型。然而,由于大规模(深度)学习模型和带宽受限的连接,FL 中可能会出现高通信成本。在本文中,我们为具有非 iid 数据集的 FL 引入了一种称为 CFedAvg 的高效通信算法框架,该框架适用于一般(有偏或无偏)SNR 约束压缩器。我们分析了具有恒定和衰减学习率的非凸函数的 CFedAvg 收敛率。CFedAvg 算法可以以恒定的学习率实现 $\mathcal{O}(1 / \sqrt{mKT} + 1 / T)$ 收敛率,这意味着随着工人数量的增加,收敛速度会线性加快,其中 $K $ 是本地步骤的数量,$T$ 是总通信轮数,$m$ 是总工人数。这与没有压缩的分布式/联合学习的收敛速度相匹配,从而在不牺牲 FL 中学习精度的情况下实现了高通信效率。此外,我们将 CFedAvg 扩展到具有异构局部步骤的情况,这允许不同的工人执行不同数量的局部步骤以更好地适应他们自己的情况。有趣的观察结果是,压缩器引入的噪声/方差不会影响非 iid FL 的整体收敛速度顺序。我们使用两种不同压缩比的梯度压缩方案验证了我们的 CFedAvg 算法在三个数据集上的有效性。这与没有压缩的分布式/联合学习的收敛速度相匹配,从而在不牺牲 FL 中学习精度的情况下实现了高通信效率。此外,我们将 CFedAvg 扩展到具有异构局部步骤的情况,这允许不同的工人执行不同数量的局部步骤以更好地适应他们自己的情况。一般来说,有趣的观察是压缩器引入的噪声/方差不会影响非 iid FL 的整体收敛速度顺序。我们使用两种不同压缩比的梯度压缩方案验证了我们的 CFedAvg 算法在三个数据集上的有效性。这与没有压缩的分布式/联合学习的收敛速度相匹配,从而在不牺牲 FL 中学习精度的情况下实现了高通信效率。此外,我们将 CFedAvg 扩展到具有异构局部步骤的情况,这允许不同的工人执行不同数量的局部步骤以更好地适应他们自己的情况。一般来说,有趣的观察是压缩器引入的噪声/方差不会影响非 iid FL 的整体收敛速度顺序。我们使用两种不同压缩比的梯度压缩方案验证了我们的 CFedAvg 算法在三个数据集上的有效性。我们将 CFedAvg 扩展到具有异构局部步骤的情况,这允许不同的工人执行不同数量的局部步骤以更好地适应他们自己的情况。一般来说,有趣的观察是压缩器引入的噪声/方差不会影响非 iid FL 的整体收敛速度顺序。我们使用两种不同压缩比的梯度压缩方案验证了我们的 CFedAvg 算法在三个数据集上的有效性。我们将 CFedAvg 扩展到具有异构局部步骤的情况,这允许不同的工人执行不同数量的局部步骤以更好地适应他们自己的情况。一般来说,有趣的观察是压缩器引入的噪声/方差不会影响非 iid FL 的整体收敛速度顺序。我们使用两种不同压缩比的梯度压缩方案验证了我们的 CFedAvg 算法在三个数据集上的有效性。
更新日期:2021-06-15
down
wechat
bug