当前位置: X-MOL 学术IEEE Trans. Cybern. › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
Primal Averaging: A New Gradient Evaluation Step to Attain the Optimal Individual Convergence
IEEE Transactions on Cybernetics ( IF 11.8 ) Pub Date : 2020-02-01 , DOI: 10.1109/tcyb.2018.2874332
Wei Tao , Zhisong Pan , Gaowei Wu , Qing Tao

Many well-known first-order gradient methods have been extended to cope with large-scale composite problems, which often arise as a regularized empirical risk minimization in machine learning. However, their optimal convergence is attained only in terms of the weighted average of past iterative solutions. How to make the individual convergence of stochastic gradient descent (SGD) optimal, especially for strongly convex problems has now become a challenging problem in the machine learning community. On the other hand, Nesterov’s recent weighted averaging strategy succeeds in achieving the optimal individual convergence of dual averaging (DA) but it fails in the basic mirror descent (MD). In this paper, a new primal averaging (PA) gradient operation step is presented, in which the gradient evaluation is imposed on the weighted average of all past iterative solutions. We prove that simply modifying the gradient operation step in MD by PA strategy suffices to recover the optimal individual rate for general convex problems. Along this line, the optimal individual rate of convergence for strongly convex problems can also be achieved by imposing the strong convexity on the gradient operation step. Furthermore, we extend PA-MD to solve regularized nonsmooth learning problems in the stochastic setting, which reveals that PA strategy is a simple yet effective extra step toward the optimal individual convergence of SGD. Several real experiments on sparse learning and SVM problems verify the correctness of our theoretical analysis.

中文翻译:

原始平均:实现最佳个体收敛的新梯度评估步骤

许多众所周知的一阶梯度方法已得到扩展,以应对大规模的复合问题,这些问题通常是在机器学习中将规则化的经验风险最小化而产生的。但是,仅根据过去迭代解决方案的加权平均值才能获得它们的最佳收敛。如何使随机梯度下降(SGD)的个体收敛达到最佳,尤其是对于强凸问题,已成为机器学习社区中一个具有挑战性的问题。另一方面,内斯特罗夫(Nesterov)最近的加权平均策略成功实现了对偶平均(DA)的最佳个体收敛,但在基本镜像下降(MD)中却失败了。本文提出了一个新的原始平均(PA)梯度运算步骤,其中,对所有过去的迭代解决方案的加权平均值进行梯度评估。我们证明,简单地通过PA策略修改MD中的梯度运算步骤就足以恢复一般凸问题的最优个体率。沿着这条线,也可以通过将强凸性强加在梯度运算步骤上来实现针对强凸性问题的最优单个收敛速度。此外,我们扩展了PA-MD以解决随机环境中的正规化非光滑学习问题,这表明PA策略是实现SGD最佳个体收敛的简单而有效的额外步骤。关于稀疏学习和SVM问题的几个实际实验证明了我们理论分析的正确性。我们证明,简单地通过PA策略修改MD中的梯度运算步骤就足以恢复一般凸问题的最优个体率。沿着这条线,也可以通过将强凸性强加在梯度运算步骤上来实现针对强凸性问题的最优单个收敛速度。此外,我们扩展了PA-MD以解决随机环境中的正规化非光滑学习问题,这表明PA策略是实现SGD最佳个体收敛的简单而有效的额外步骤。关于稀疏学习和SVM问题的几个实际实验证明了我们理论分析的正确性。我们证明,简单地通过PA策略修改MD中的梯度运算步骤就足以恢复一般凸问题的最优个体率。沿着这条线,也可以通过将强凸性强加在梯度运算步骤上来实现针对强凸性问题的最优单个收敛速度。此外,我们扩展了PA-MD以解决随机环境中的正规化非光滑学习问题,这表明PA策略是实现SGD最佳个体收敛的简单而有效的额外步骤。关于稀疏学习和SVM问题的几个实际实验证明了我们理论分析的正确性。通过在梯度运算步骤上强凸,也可以实现强凸问题的最佳个体收敛速度。此外,我们扩展了PA-MD以解决随机环境中的正规化非光滑学习问题,这表明PA策略是实现SGD最佳个体收敛的简单而有效的额外步骤。关于稀疏学习和SVM问题的几个实际实验证明了我们理论分析的正确性。通过在梯度运算步骤上强凸,也可以实现强凸问题的最佳个体收敛速度。此外,我们扩展了PA-MD以解决随机环境中的正规化非光滑学习问题,这表明PA策略是实现SGD最佳个体收敛的简单而有效的额外步骤。关于稀疏学习和SVM问题的几个实际实验证明了我们理论分析的正确性。
更新日期:2020-02-01
down
wechat
bug