当前位置: X-MOL 学术Ann. Stat. › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
Analysis of a two-layer neural network via displacement convexity
Annals of Statistics ( IF 3.2 ) Pub Date : 2020-12-01 , DOI: 10.1214/20-aos1945
Adel Javanmard , Marco Mondelli , Andrea Montanari

Fitting a function by using linear combinations of a large number $N$ of `simple' components is one of the most fruitful ideas in statistical learning. This idea lies at the core of a variety of methods, from two-layer neural networks to kernel regression, to boosting. In general, the resulting risk minimization problem is non-convex and is solved by gradient descent or its variants. Unfortunately, little is known about global convergence properties of these approaches. Here we consider the problem of learning a concave function $f$ on a compact convex domain $\Omega\subseteq {\mathbb R}^d$, using linear combinations of `bump-like' components (neurons). The parameters to be fitted are the centers of $N$ bumps, and the resulting empirical risk minimization problem is highly non-convex. We prove that, in the limit in which the number of neurons diverges, the evolution of gradient descent converges to a Wasserstein gradient flow in the space of probability distributions over $\Omega$. Further, when the bump width $\delta$ tends to $0$, this gradient flow has a limit which is a viscous porous medium equation. Remarkably, the cost function optimized by this gradient flow exhibits a special property known as displacement convexity, which implies exponential convergence rates for $N\to\infty$, $\delta\to 0$. Surprisingly, this asymptotic theory appears to capture well the behavior for moderate values of $\delta, N$. Explaining this phenomenon, and understanding the dependence on $\delta,N$ in a quantitative manner remains an outstanding challenge.

中文翻译:

基于位移凸性的两层神经网络分析

通过使用大量“简单”组件的线性组合来拟合函数是统计学习中最富有成效的想法之一。这个想法是各种方法的核心,从两层神经网络到核回归,再到提升。一般来说,由此产​​生的风险最小化问题是非凸的,可以通过梯度下降或其变体来解决。不幸的是,对这些方法的全局收敛特性知之甚少。在这里,我们考虑在紧凑凸域 $\Omega\subseteq {\mathbb R}^d$ 上学习凹函数 $f$ 的问题,使用“凹凸状”组件(神经元)的线性组合。要拟合的参数是 $N$ 凸起的中心,由此产生的经验风险最小化问题是高度非凸的。我们证明,在神经元数量发散的极限内,梯度下降的演化在 $\Omega$ 上的概率分布空间中收敛到一个 Wasserstein 梯度流。此外,当凸块宽度 $\delta$ 趋向于 $0$ 时,该梯度流具有一个极限,即粘性多孔介质方程。值得注意的是,由该梯度流优化的成本函数表现出一种称为位移凸性的特殊属性,这意味着 $N\to\infty$、$\delta\to 0$ 的指数收敛速度。令人惊讶的是,这种渐近理论似乎很好地捕捉了 $\delta, N$ 中等值的行为。解释这种现象,并以定量的方式理解对 $\delta,N$ 的依赖仍然是一个突出的挑战。梯度下降的演化在 $\Omega$ 上的概率分布空间中收敛到一个 Wasserstein 梯度流。此外,当凸块宽度 $\delta$ 趋向于 $0$ 时,该梯度流具有一个极限,即粘性多孔介质方程。值得注意的是,由该梯度流优化的成本函数表现出一种称为位移凸性的特殊属性,这意味着 $N\to\infty$、$\delta\to 0$ 的指数收敛速度。令人惊讶的是,这种渐近理论似乎很好地捕捉了 $\delta, N$ 中等值的行为。解释这种现象,并以定量的方式理解对 $\delta,N$ 的依赖仍然是一个突出的挑战。梯度下降的演化在 $\Omega$ 上的概率分布空间中收敛到一个 Wasserstein 梯度流。此外,当凸块宽度 $\delta$ 趋向于 $0$ 时,该梯度流具有一个极限,即粘性多孔介质方程。值得注意的是,由该梯度流优化的成本函数表现出一种称为位移凸性的特殊属性,这意味着 $N\to\infty$、$\delta\to 0$ 的指数收敛速度。令人惊讶的是,这种渐近理论似乎很好地捕捉了 $\delta, N$ 中等值的行为。解释这种现象,并以定量的方式理解对 $\delta,N$ 的依赖仍然是一个突出的挑战。这种梯度流有一个极限,它是一个粘性多孔介质方程。值得注意的是,由这种梯度流优化的成本函数表现出一种称为位移凸性的特殊属性,这意味着 $N\to\infty$、$\delta\to 0$ 的指数收敛速度。令人惊讶的是,这种渐近理论似乎很好地捕捉了 $\delta, N$ 中等值的行为。解释这种现象,并以定量的方式理解对 $\delta,N$ 的依赖仍然是一个突出的挑战。这种梯度流有一个极限,它是一个粘性多孔介质方程。值得注意的是,由该梯度流优化的成本函数表现出一种称为位移凸性的特殊属性,这意味着 $N\to\infty$、$\delta\to 0$ 的指数收敛速度。令人惊讶的是,这种渐近理论似乎很好地捕捉了 $\delta, N$ 中等值的行为。解释这种现象,并以定量的方式理解对 $\delta,N$ 的依赖仍然是一个突出的挑战。
更新日期:2020-12-01
down
wechat
bug