当前位置: X-MOL 学术arXiv.cs.DC › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
Communication-Efficient Distributed Deep Learning: A Comprehensive Survey
arXiv - CS - Distributed, Parallel, and Cluster Computing Pub Date : 2020-03-10 , DOI: arxiv-2003.06307
Zhenheng Tang, Shaohuai Shi, Xiaowen Chu, Wei Wang, Bo Li

Distributed deep learning becomes very common to reduce the overall training time by exploiting multiple computing devices (e.g., GPUs/TPUs) as the size of deep models and data sets increases. However, data communication between computing devices could be a potential bottleneck to limit the system scalability. How to address the communication problem in distributed deep learning is becoming a hot research topic recently. In this paper, we provide a comprehensive survey of the communication-efficient distributed training algorithms in both system-level and algorithmic-level optimizations. In the system-level, we demystify the system design and implementation to reduce the communication cost. In algorithmic-level, we compare different algorithms with theoretical convergence bounds and communication complexity. Specifically, we first propose the taxonomy of data-parallel distributed training algorithms, which contains four main dimensions: communication synchronization, system architectures, compression techniques, and parallelism of communication and computing. Then we discuss the studies in addressing the problems of the four dimensions to compare the communication cost. We further compare the convergence rates of different algorithms, which enable us to know how fast the algorithms can converge to the solution in terms of iterations. According to the system-level communication cost analysis and theoretical convergence speed comparison, we provide the readers to understand what algorithms are more efficient under specific distributed environments and extrapolate potential directions for further optimizations.

中文翻译:

通信高效的分布式深度学习:综合调查

随着深度模型和数据集大小的增加,分布式深度学习通过利用多个计算设备(例如,GPU/TPU)来减少整体训练时间变得非常普遍。然而,计算设备之间的数据通信可能是限制系统可扩展性的潜在瓶颈。如何解决分布式深度学习中的通信问题成为近期的一个热门研究课题。在本文中,我们对系统级和算法级优化中的通信高效分布式训练算法进行了全面调查。在系统层面,我们揭开系统设计和实现的神秘面纱,以降低通信成本。在算法层面,我们比较了不同算法的理论收敛界限和通信复杂度。具体来说,我们首先提出了数据并行分布式训练算法的分类,它包含四个主要维度:通信同步、系统架构、压缩技术以及通信和计算的并行性。然后我们讨论了解决四个维度问题的研究,以比较通信成本。我们进一步比较了不同算法的收敛速度,这使我们能够了解算法在迭代方面收敛到解决方案的速度。根据系统级通信成本分析和理论收敛速度比较,我们为读者提供了解在特定分布式环境下哪些算法更有效,并推断出进一步优化的潜在方向。其中包含四个主要维度:通信同步、系统架构、压缩技术以及通信和计算的并行性。然后我们讨论了解决四个维度问题的研究,以比较通信成本。我们进一步比较了不同算法的收敛速度,这使我们能够了解算法在迭代方面收敛到解决方案的速度。根据系统级通信成本分析和理论收敛速度比较,我们为读者提供了解在特定分布式环境下哪些算法更有效,并推断出进一步优化的潜在方向。其中包含四个主要维度:通信同步、系统架构、压缩技术以及通信和计算的并行性。然后我们讨论了解决四个维度问题的研究,以比较通信成本。我们进一步比较了不同算法的收敛速度,这使我们能够了解算法在迭代方面收敛到解决方案的速度。根据系统级通信成本分析和理论收敛速度比较,我们为读者提供了解在特定分布式环境下哪些算法更有效,并推断出进一步优化的潜在方向。以及通信和计算的并行性。然后我们讨论了解决四个维度问题的研究,以比较通信成本。我们进一步比较了不同算法的收敛速度,这使我们能够了解算法在迭代方面收敛到解决方案的速度。根据系统级通信成本分析和理论收敛速度比较,我们为读者提供了解在特定分布式环境下哪些算法更有效,并推断出进一步优化的潜在方向。以及通信和计算的并行性。然后我们讨论了解决四个维度问题的研究,以比较通信成本。我们进一步比较了不同算法的收敛速度,这使我们能够了解算法在迭代方面收敛到解决方案的速度。根据系统级通信成本分析和理论收敛速度比较,我们为读者提供了解在特定分布式环境下哪些算法更有效,并推断出进一步优化的潜在方向。这使我们能够知道算法在迭代方面收敛到解决方案的速度。根据系统级通信成本分析和理论收敛速度比较,我们为读者提供了解在特定分布式环境下哪些算法更有效,并推断出进一步优化的潜在方向。这使我们能够知道算法在迭代方面收敛到解决方案的速度。根据系统级通信成本分析和理论收敛速度比较,我们为读者提供了解在特定分布式环境下哪些算法更有效,并推断出进一步优化的潜在方向。
更新日期:2020-03-16
down
wechat
bug