Anytime Minibatch With Delayed Gradients,IEEE Transactions on Signal and Information Processing over Networks

当前位置： X-MOL 学术 › IEEE Trans. Signal Inf. Process. Over Netw. › 论文详情

Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)

Anytime Minibatch With Delayed Gradients
IEEE Transactions on Signal and Information Processing over Networks ( IF 3.2 ) Pub Date : 2020-12-15 , DOI: 10.1109/tsipn.2020.3044955
Haider Al-Lawati , Stark C. Draper

Distributed optimization is widely deployed in practice to solve a broad range of problems. In a typical asynchronous scheme, workers calculate gradients with respect to out-of-date optimization parameters while the master uses stale (i.e., delayed) gradients to update the parameters. While using stale gradients can slow the convergence, asynchronous methods speed up the overall optimization with respect to wall clock time by allowing more frequent updates and reducing idling times. In this paper, we present a variable per-epoch minibatch scheme called Anytime Minibatch with Delayed Gradients (AMB-DG). In AMB-DG, workers compute gradients in epochs of a fixed time while the master uses stale gradients to update the optimization parameters. We analyze AMB-DG in terms of its regret bound and convergence rate. We prove that for convex smooth objective functions, AMB-DG achieves the optimal regret bound and convergence rate. We compare the performance of AMB-DG with that of Anytime Minibatch (AMB) which is similar to AMB-DG but does not use stale gradients. In AMB, workers stay idle after each gradient transmission to the master until they receive the updated parameters from the master while in AMB-DG workers never idle. We also extend AMB-DG to the fully distributed setting. We compare AMB-DG with AMB when the communication delay is long and observe that AMB-DG converges faster than AMB in wall clock time. We also compare the performance of AMB-DG with the state-of-the-art fixed minibatch approach that uses delayed gradients. We run our experiments on a real distributed system and observe that AMB-DG converges more than two times.

中文翻译：

随时随地使用延迟梯度进行小批量生产

分布式优化在实践中被广泛部署以解决各种各样的问题。在典型的异步方案中，工作人员针对过时的优化参数计算梯度，而主节点使用陈旧（即延迟）的梯度来更新参数。尽管使用陈旧的梯度可能会降低收敛速度，但异步方法通过允许更频繁的更新并减少了空闲时间，从而加快了有关挂钟时间的总体优化速度。在本文中，我们提出了一种可变的每时间段小批量方案，称为带延迟梯度的任意时间小批量（AMB-DG）。在AMB-DG中，工作人员以固定时间段计算梯度，而主节点使用陈旧的梯度来更新优化参数。我们从AMB-DG的后悔约束和收敛速度方面对其进行分析。我们证明，对于凸光滑目标函数，AMB-DG达到了最佳后悔界和收敛速度。我们将AMB-DG的性能与Anytime Minibatch（AMB）的性能进行了比较，后者类似于AMB-DG，但不使用陈旧的渐变。在AMB中，工作人员在每次向主站进行梯度传输之后都保持空闲状态，直到他们从主站接收到更新的参数为止，而在AMB-DG中，工作人员从不空闲。我们还将AMB-DG扩展到完全分布式的设置。当通信延迟较长时，我们将AMB-DG与AMB进行了比较，并观察到AMB-DG的收敛速度比AMB-DG的壁钟时间快。我们还将AMB-DG的性能与使用延迟梯度的最新固定小批量方法进行了比较。我们在真实的分布式系统上运行我们的实验，并观察到AMB-DG收敛两次以上。AMB-DG实现了最佳后悔约束和收敛速度。我们将AMB-DG的性能与Anytime Minibatch（AMB）的性能进行了比较，后者类似于AMB-DG，但不使用陈旧的渐变。在AMB中，工作人员在每次向主站进行梯度传输之后都保持空闲状态，直到他们从主站接收到更新的参数为止，而在AMB-DG中，工作人员从不空闲。我们还将AMB-DG扩展到完全分布式的设置。当通信延迟较长时，我们将AMB-DG与AMB进行了比较，并观察到AMB-DG的收敛速度比AMB-DG的壁钟时间快。我们还将AMB-DG的性能与使用延迟梯度的最新固定小批量方法进行了比较。我们在真实的分布式系统上运行我们的实验，并观察到AMB-DG收敛两次以上。AMB-DG实现了最佳后悔约束和收敛速度。我们将AMB-DG的性能与Anytime Minibatch（AMB）的性能进行了比较，后者类似于AMB-DG，但不使用陈旧的渐变。在AMB中，工作人员在每次向主站进行梯度传输之后都保持空闲状态，直到他们从主站接收到更新的参数为止，而在AMB-DG中，工作人员从不空闲。我们还将AMB-DG扩展到完全分布式的设置。当通信延迟较长时，我们将AMB-DG与AMB进行了比较，并观察到AMB-DG的收敛速度比AMB-DG的壁钟时间快。我们还将AMB-DG的性能与使用延迟梯度的最新固定小批量方法进行了比较。我们在真实的分布式系统上运行我们的实验，并观察到AMB-DG收敛两次以上。我们将AMB-DG的性能与Anytime Minibatch（AMB）的性能进行了比较，后者类似于AMB-DG，但不使用陈旧的渐变。在AMB中，工作人员在每次向主站进行梯度传输之后都保持空闲状态，直到他们从主站接收到更新的参数为止，而在AMB-DG中，工作人员从不空闲。我们还将AMB-DG扩展到完全分布式的设置。当通信延迟较长时，我们将AMB-DG与AMB进行了比较，并观察到AMB-DG的收敛速度比AMB-DG的壁钟时间快。我们还将AMB-DG的性能与使用延迟梯度的最新固定小批量方法进行了比较。我们在真实的分布式系统上运行我们的实验，并观察到AMB-DG收敛两次以上。我们将AMB-DG的性能与Anytime Minibatch（AMB）的性能进行了比较，后者类似于AMB-DG，但不使用陈旧的渐变。在AMB中，工作人员在每次向主站进行梯度传输之后都保持空闲状态，直到他们从主站接收到更新的参数为止，而在AMB-DG中，工作人员从不空闲。我们还将AMB-DG扩展到完全分布式的设置。当通信延迟较长时，我们将AMB-DG与AMB进行了比较，并观察到AMB-DG的收敛速度比AMB-DG的壁钟时间快。我们还将AMB-DG的性能与使用延迟梯度的最新固定小批量方法进行了比较。我们在真实的分布式系统上运行我们的实验，并观察到AMB-DG收敛两次以上。每次将梯度传输到主设备后，工作人员都保持空闲状态，直到他们从主设备接收到更新的参数为止，而在AMB-DG中，工作人员从未处于空闲状态。我们还将AMB-DG扩展到完全分布式的设置。当通信延迟较长时，我们将AMB-DG与AMB进行了比较，并观察到AMB-DG的收敛速度比AMB-DG的壁钟时间快。我们还将AMB-DG的性能与使用延迟梯度的最新固定小批量方法进行了比较。我们在真实的分布式系统上运行我们的实验，并观察到AMB-DG收敛两次以上。每次将梯度传输到主设备后，工作人员都保持空闲状态，直到他们从主设备接收到更新的参数为止，而在AMB-DG中，工作人员从未处于空闲状态。我们还将AMB-DG扩展到完全分布式的设置。当通信延迟较长时，我们将AMB-DG与AMB进行了比较，并观察到AMB-DG的收敛速度比AMB-DG的壁钟时间快。我们还将AMB-DG的性能与使用延迟梯度的最新固定小批量方法进行了比较。我们在真实的分布式系统上运行我们的实验，并观察到AMB-DG收敛两次以上。当通信延迟较长时，我们将AMB-DG与AMB进行了比较，并观察到AMB-DG的收敛速度比AMB-DG的壁钟时间快。我们还将AMB-DG的性能与使用延迟梯度的最新固定小批量方法进行了比较。我们在真实的分布式系统上运行我们的实验，并观察到AMB-DG收敛两次以上。当通信延迟较长时，我们将AMB-DG与AMB进行了比较，并观察到AMB-DG的收敛速度比AMB-DG的壁钟时间快。我们还将AMB-DG的性能与使用延迟梯度的最新固定小批量方法进行了比较。我们在真实的分布式系统上运行我们的实验，并观察到AMB-DG收敛两次以上。

更新日期：2020-12-15

点击分享查看原文

点击收藏

公开下载

阅读更多本刊最新论文

全部期刊列表>>