当前位置: X-MOL 学术Math. Program. › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
On the optimization landscape of tensor decompositions
Mathematical Programming ( IF 2.2 ) Pub Date : 2020-10-24 , DOI: 10.1007/s10107-020-01579-x
Rong Ge , Tengyu Ma

Non-convex optimization with local search heuristics has been widely used in machine learning, achieving many state-of-art results. It becomes increasingly important to understand why they can work for these NP-hard problems on typical data. The landscape of many objective functions in learning has been conjectured to have the geometric property that "all local optima are (approximately) global optima", and thus they can be solved efficiently by local search algorithms. However, establishing such property can be very difficult. In this paper, we analyze the optimization landscape of the random over-complete tensor decomposition problem, which has many applications in unsupervised learning, especially in learning latent variable models. In practice, it can be efficiently solved by gradient ascent on a non-convex objective. We show that for any small constant $\epsilon > 0$, among the set of points with function values $(1+\epsilon)$-factor larger than the expectation of the function, all the local maxima are approximate global maxima. Previously, the best-known result only characterizes the geometry in small neighborhoods around the true components. Our result implies that even with an initialization that is barely better than the random guess, the gradient ascent algorithm is guaranteed to solve this problem. Our main technique uses Kac-Rice formula and random matrix theory. To our best knowledge, this is the first time when Kac-Rice formula is successfully applied to counting the number of local minima of a highly-structured random polynomial with dependent coefficients.

中文翻译:

关于张量分解的优化前景

具有局部搜索启发式的非凸优化已广泛应用于机器学习中,取得了许多最先进的结果。了解为什么它们可以解决典型数据上的这些 NP 难题变得越来越重要。学习中的许多目标函数的景观被推测具有“所有局部最优都是(近似)全局最优”的几何性质,因此它们可以通过局部搜索算法有效地解决。然而,建立这样的财产可能非常困难。在本文中,我们分析了随机过完备张量分解问题的优化前景,该问题在无监督学习中具有许多应用,尤其是在学习潜在变量模型方面。在实践中,它可以通过非凸目标上的梯度上升来有效解决。我们证明,对于任何小常数 $\epsilon > 0$,在函数值 $(1+\epsilon)$-factor 大于函数期望值的点集合中,所有局部最大值都是近似全局最大值。以前,最著名的结果仅表征真实组件周围小邻域中的几何形状。我们的结果意味着,即使初始化仅比随机猜测好一点,梯度上升算法也能保证解决这个问题。我们的主要技术使用 Kac-Rice 公式和随机矩阵理论。据我们所知,这是第一次成功地将 Kac-Rice 公式应用于计算具有相关系数的高度结构化随机多项式的局部最小值的数量。在函数值$(1+\epsilon)$-factor 大于函数期望值的点集合中,所有局部极大值都是近似全局极大值。以前,最著名的结果仅表征真实组件周围小邻域中的几何形状。我们的结果意味着,即使初始化仅比随机猜测好一点,梯度上升算法也能保证解决这个问题。我们的主要技术使用 Kac-Rice 公式和随机矩阵理论。据我们所知,这是第一次成功地将 Kac-Rice 公式应用于计算具有相关系数的高度结构化随机多项式的局部最小值的数量。在函数值$(1+\epsilon)$-factor 大于函数期望值的点集合中,所有局部极大值都是近似全局极大值。以前,最著名的结果仅表征真实组件周围小邻域中的几何形状。我们的结果意味着,即使初始化仅比随机猜测好一点,梯度上升算法也能保证解决这个问题。我们的主要技术使用 Kac-Rice 公式和随机矩阵理论。据我们所知,这是第一次成功地将 Kac-Rice 公式应用于计算具有相关系数的高度结构化随机多项式的局部最小值的数量。最著名的结果仅表征真实组件周围小邻域中的几何形状。我们的结果意味着,即使初始化仅比随机猜测好一点,梯度上升算法也能保证解决这个问题。我们的主要技术使用 Kac-Rice 公式和随机矩阵理论。据我们所知,这是第一次成功地将 Kac-Rice 公式应用于计算具有相关系数的高度结构化随机多项式的局部最小值的数量。最著名的结果仅表征真实组件周围小邻域中的几何形状。我们的结果意味着,即使初始化仅比随机猜测好一点,梯度上升算法也能保证解决这个问题。我们的主要技术使用 Kac-Rice 公式和随机矩阵理论。据我们所知,这是第一次成功地将 Kac-Rice 公式应用于计算具有相关系数的高度结构化随机多项式的局部最小值的数量。
更新日期:2020-10-24
down
wechat
bug