当前位置: X-MOL 学术Math. Program. › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
Generalized stochastic Frank–Wolfe algorithm with stochastic “substitute” gradient for structured convex optimization
Mathematical Programming ( IF 2.7 ) Pub Date : 2020-03-04 , DOI: 10.1007/s10107-020-01480-7
Haihao Lu , Robert M. Freund

The stochastic Frank–Wolfe method has recently attracted much general interest in the context of optimization for statistical and machine learning due to its ability to work with a more general feasible region. However, there has been a complexity gap in the dependence on the optimality tolerance $$\varepsilon $$ ε in the guaranteed convergence rate for stochastic Frank–Wolfe compared to its deterministic counterpart. In this work, we present a new generalized stochastic Frank–Wolfe method which closes this gap for the class of structured optimization problems encountered in statistical and machine learning characterized by empirical loss minimization with a certain type of “linear prediction” property (formally defined in the paper), which is typically present in loss minimization problems in practice. Our method also introduces the notion of a “substitute gradient” that is a not-necessarily-unbiased estimate of the gradient. We show that our new method is equivalent to a particular randomized coordinate mirror descent algorithm applied to the dual problem, which in turn provides a new interpretation of randomized dual coordinate descent in the primal space. Also, in the special case of a strongly convex regularizer our generalized stochastic Frank–Wolfe method (as well as the randomized dual coordinate descent method) exhibits linear convergence. Furthermore, we present computational experiments that indicate that our method outperforms other stochastic Frank–Wolfe methods for a sufficiently small optimality tolerance, consistent with the theory developed herein.

中文翻译:

具有用于结构化凸优化的随机“替代”梯度的广义随机 Frank-Wolfe 算法

随机 Frank-Wolfe 方法最近在统计和机器学习优化的背景下引起了广泛的兴趣,因为它能够处理更一般的可行区域。然而,与确定性对应物相比,随机 Frank-Wolfe 的保证收敛率对最优容差 $$\varepsilon $$ ε 的依赖存在复杂性差距。在这项工作中,我们提出了一种新的广义随机 Frank-Wolfe 方法,该方法弥补了统计和机器学习中遇到的一类结构化优化问题的差距,其特征是经验损失最小化和某种类型的“线性预测”属性(正式定义在论文),这通常存在于实践中的损失最小化问题中。我们的方法还引入了“替代梯度”的概念,它是对梯度的不必要无偏估计。我们表明,我们的新方法等效于应用于对偶问题的特定随机坐标镜像下降算法,这反过来为原始空间中的随机双坐标下降提供了新的解释。此外,在强凸正则化器的特殊情况下,我们的广义随机 Frank-Wolfe 方法(以及随机双坐标下降方法)表现出线性收敛。此外,我们提出的计算实验表明,我们的方法在足够小的最优容差方面优于其他随机 Frank-Wolfe 方法,这与本文开发的理论一致。我们表明,我们的新方法等效于应用于对偶问题的特定随机坐标镜像下降算法,这反过来又为原始空间中的随机双坐标下降提供了新的解释。此外,在强凸正则化器的特殊情况下,我们的广义随机 Frank-Wolfe 方法(以及随机双坐标下降方法)表现出线性收敛。此外,我们提出的计算实验表明,我们的方法在足够小的最优容差方面优于其他随机 Frank-Wolfe 方法,这与本文开发的理论一致。我们表明,我们的新方法等效于应用于对偶问题的特定随机坐标镜像下降算法,这反过来又为原始空间中的随机双坐标下降提供了新的解释。此外,在强凸正则化器的特殊情况下,我们的广义随机 Frank-Wolfe 方法(以及随机双坐标下降方法)表现出线性收敛。此外,我们提出的计算实验表明,我们的方法在足够小的最优容差方面优于其他随机 Frank-Wolfe 方法,这与本文开发的理论一致。这反过来又为原始空间中的随机双坐标下降提供了新的解释。此外,在强凸正则化器的特殊情况下,我们的广义随机 Frank-Wolfe 方法(以及随机双坐标下降方法)表现出线性收敛。此外,我们提出的计算实验表明,我们的方法在足够小的最优容差方面优于其他随机 Frank-Wolfe 方法,这与本文开发的理论一致。这反过来又为原始空间中的随机双坐标下降提供了新的解释。此外,在强凸正则化器的特殊情况下,我们的广义随机 Frank-Wolfe 方法(以及随机双坐标下降方法)表现出线性收敛。此外,我们提出的计算实验表明,我们的方法在足够小的最优容差方面优于其他随机 Frank-Wolfe 方法,这与本文开发的理论一致。
更新日期:2020-03-04
down
wechat
bug