当前位置: X-MOL 学术Ann. Stat. › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
Local nearest neighbour classification with applications to semi-supervised learning
Annals of Statistics ( IF 4.5 ) Pub Date : 2020-06-01 , DOI: 10.1214/19-aos1868
Timothy I. Cannings , Thomas B. Berrett , Richard J. Samworth

We derive a new asymptotic expansion for the global excess risk of a local-$k$-nearest neighbour classifier, where the choice of $k$ may depend upon the test point. This expansion elucidates conditions under which the dominant contribution to the excess risk comes from the decision boundary of the optimal Bayes classifier, but we also show that if these conditions are not satisfied, then the dominant contribution may arise from the tails of the marginal distribution of the features. Moreover, we prove that, provided the $d$-dimensional marginal distribution of the features has a finite $\rho$th moment for some $\rho > 4$ (as well as other regularity conditions), a local choice of $k$ can yield a rate of convergence of the excess risk of $O(n^{-4/(d+4)})$, where $n$ is the sample size, whereas for the standard $k$-nearest neighbour classifier, our theory would require $d \geq 5$ and $\rho > 4d/(d-4)$ finite moments to achieve this rate. These results motivate a new $k$-nearest neighbour classifier for semi-supervised learning problems, where the unlabelled data are used to obtain an estimate of the marginal feature density, and fewer neighbours are used for classification when this density estimate is small. Our worst-case rates are complemented by a minimax lower bound, which reveals that the local, semi-supervised $k$-nearest neighbour classifier attains the minimax optimal rate over our classes for the excess risk, up to a subpolynomial factor in $n$. These theoretical improvements over the standard $k$-nearest neighbour classifier are also illustrated through a simulation study.

中文翻译:

局部最近邻分类在半监督学习中的应用

我们为局部-$k$-最近邻分类器的全局超额风险推导出新的渐近展开式,其中$k$ 的选择可能取决于测试点。这种扩展阐明了对过度风险的主要贡献来自最佳贝叶斯分类器的决策边界的条件,但我们也表明,如果不满足这些条件,则主要贡献可能来自边缘分布的尾部特点。此外,我们证明,如果特征的 $d$ 维边际分布对于某些 $\rho > 4$(以及其他规律性条件)具有有限的 $\rho$th 矩,则 $k 的局部选择$ 可以产生 $O(n^{-4/(d+4)})$ 的超额风险的收敛率,其中 $n$ 是样本大小,而对于标准的 $k$-最近邻分类器, 我们的理论需要 $d \geq 5$ 和 $\rho > 4d/(d-4)$ 有限矩才能达到这个速率。这些结果激发了用于半监督学习问题的新的 $k$-最近邻分类器,其中未标记的数据用于获得边缘特征密度的估计,当密度估计较小时,使用较少的邻居进行分类。我们的最坏情况下的比率由一个极小极大下界补充,这表明局部半监督的 $k$-最近邻分类器在我们的类中获得了超额风险的极小极大最优率,最高可达 $n 中的一个子多项式因子$. 这些对标准 $k$-最近邻分类器的理论改进也通过模拟研究进行了说明。这些结果激发了用于半监督学习问题的新的 $k$-最近邻分类器,其中未标记的数据用于获得边缘特征密度的估计,当密度估计较小时,使用较少的邻居进行分类。我们的最坏情况下的比率由一个极小极大下界补充,这表明局部半监督的 $k$-最近邻分类器在我们的类中获得了超额风险的极小极大最优率,最高可达 $n 中的一个子多项式因子$. 这些对标准 $k$-最近邻分类器的理论改进也通过模拟研究进行了说明。这些结果激发了用于半监督学习问题的新的 $k$-最近邻分类器,其中未标记的数据用于获得边缘特征密度的估计,当密度估计较小时,使用较少的邻居进行分类。我们的最坏情况下的比率由一个极小极大下界补充,这表明局部半监督的 $k$-最近邻分类器在我们的类中获得了超额风险的极小极大最优率,最高可达 $n 中的一个子多项式因子$. 这些对标准 $k$-最近邻分类器的理论改进也通过模拟研究进行了说明。当此密度估计值较小时,用于分类的邻居较少。我们的最坏情况下的比率由一个极小极大下界补充,这表明局部半监督的 $k$-最近邻分类器在我们的类中获得了超额风险的极小极大最优率,最高可达 $n 中的一个子多项式$. 这些对标准 $k$-最近邻分类器的理论改进也通过模拟研究进行了说明。当此密度估计值较小时,用于分类的邻居较少。我们的最坏情况下的比率由一个极小极大下界补充,这表明局部半监督的 $k$-最近邻分类器在我们的类中获得了超额风险的极小极大最优率,最高可达 $n 中的一个子多项式因子$. 这些对标准 $k$-最近邻分类器的理论改进也通过模拟研究进行了说明。
更新日期:2020-06-01
down
wechat
bug