当前位置: X-MOL 学术arXiv.cs.DC › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
Moshpit SGD:对异构不可靠设备进行有效通信的分散式培训
arXiv - CS - Distributed, Parallel, and Cluster Computing Pub Date : 2021-03-04 , DOI: arxiv-2103.03239
Max Ryabinin, Eduard Gorbunov, Vsevolod Plokhotnyuk, Gennady Pekhimenko

通常可以通过使用多个计算节点来加快在大型数据集上训练深度神经网络的速度。这种称为分布式培训的方法可以通过专门的消息传递协议(例如Ring All-Reduce)利用数百台计算机。但是,大规模运行这些协议需要可靠的高速网络,这仅在专用群集中可用。相反,许多现实世界的应用程序(例如联合学习和基于云的分布式培训)在不稳定的设备上运行,且设备的网络带宽不稳定。结果,这些应用程序只能使用参数服务器或基于八卦的平均协议。在这项工作中,我们通过提出Moshpit All-Reduce来解除这种限制,Moshpit All-Reduce是一种迭代平均协议,它指数收敛于全球平均值。我们以强大的理论保证证明了我们的协议在分布式优化中的效率。实验表明,与基于竞争性八卦的策略相比,ImageNet上ResNet-50培训的速度提高了1.3倍,而使用可抢占的计算节点从头开始训练ALBERT-large的速度提高了1.5倍。



"点击查看英文标题和摘要"

更新日期:2021-03-05
down
wechat
bug