当前位置: X-MOL 学术Biometrika › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
More efficient approximation of smoothing splines via space-filling basis selection
Biometrika ( IF 2.7 ) Pub Date : 2020-05-07 , DOI: 10.1093/biomet/asaa019
Cheng Meng 1 , Xinlian Zhang 1 , Jingyi Zhang 1 , Wenxuan Zhong 1 , Ping Ma 1
Affiliation  

We consider the problem of approximating smoothing spline estimators in a nonparametric regression model. When applied to a sample of size [Formula: see text], the smoothing spline estimator can be expressed as a linear combination of [Formula: see text] basis functions, requiring [Formula: see text] computational time when the number [Formula: see text] of predictors is two or more. Such a sizeable computational cost hinders the broad applicability of smoothing splines. In practice, the full-sample smoothing spline estimator can be approximated by an estimator based on [Formula: see text] randomly selected basis functions, resulting in a computational cost of [Formula: see text]. It is known that these two estimators converge at the same rate when [Formula: see text] is of order [Formula: see text], where [Formula: see text] depends on the true function and [Formula: see text] depends on the type of spline. Such a [Formula: see text] is called the essential number of basis functions. In this article, we develop a more efficient basis selection method. By selecting basis functions corresponding to approximately equally spaced observations, the proposed method chooses a set of basis functions with great diversity. The asymptotic analysis shows that the proposed smoothing spline estimator can decrease [Formula: see text] to around [Formula: see text] when [Formula: see text]. Applications to synthetic and real-world datasets show that the proposed method leads to a smaller prediction error than other basis selection methods.

中文翻译:

通过空间填充基选择更有效地近似平滑样条

我们考虑在非参数回归模型中逼近平滑样条估计量的问题。当应用于大小为[公式:见正文]的样本时,平滑样条估计量可以表示为[公式:见正文]基函数的线性组合,需要[公式:见正文]计算时间[公式:见正文]见正文] 的预测变量是两个或更多。如此庞大的计算成本阻碍了平滑样条的广泛适用性。在实践中,全样本平滑样条估计器可以通过基于[公式:见正文]随机选择的基函数的估计量来近似,导致计算成本为[公式:见正文]。已知当[公式:见正文]为[公式:见正文]阶时,这两个估计量以相同的速率收敛,其中[公式:见正文] see text] 取决于真实的函数,而 [Formula: see text] 取决于样条的类型。这样一个[公式:见正文]被称为基函数的本质数。在本文中,我们开发了一种更有效的基选择方法。通过选择对应于近似等距观测的基函数,所提出的方法选择了一组具有很大多样性的基函数。渐近分析表明,当[公式:见正文]时,所提出的平滑样条估计器可以将[公式:见正文]减少到[公式:见正文]左右。对合成和现实世界数据集的应用表明,与其他基础选择方法相比,所提出的方法导致更小的预测误差。在本文中,我们开发了一种更有效的基选择方法。通过选择对应于近似等距观测的基函数,所提出的方法选择了一组具有很大多样性的基函数。渐近分析表明,当[公式:见正文]时,所提出的平滑样条估计器可以将[公式:见正文]减少到[公式:见正文]左右。对合成和真实世界数据集的应用表明,与其他基础选择方法相比,所提出的方法导致更小的预测误差。在本文中,我们开发了一种更有效的基选择方法。通过选择对应于近似等距观测的基函数,所提出的方法选择了一组具有很大多样性的基函数。渐近分析表明,当[公式:见正文]时,所提出的平滑样条估计器可以将[公式:见正文]减少到[公式:见正文]左右。对合成和现实世界数据集的应用表明,与其他基础选择方法相比,所提出的方法导致更小的预测误差。渐近分析表明,当[公式:见正文]时,所提出的平滑样条估计器可以将[公式:见正文]减少到[公式:见正文]左右。对合成和现实世界数据集的应用表明,与其他基础选择方法相比,所提出的方法导致更小的预测误差。渐近分析表明,当[公式:见正文]时,所提出的平滑样条估计器可以将[公式:见正文]减少到[公式:见正文]左右。对合成和现实世界数据集的应用表明,与其他基础选择方法相比,所提出的方法导致更小的预测误差。
更新日期:2020-05-07
down
wechat
bug