当前位置: X-MOL 学术Ann. Oper. Res. › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
Support vector regression for polyhedral and missing data
Annals of Operations Research ( IF 4.8 ) Pub Date : 2020-10-07 , DOI: 10.1007/s10479-020-03799-y
Gianluca Gazzola , Myong K. Jeong

We introduce “Polyhedral Support Vector Regression” (PSVR), a regression model for data represented by arbitrary convex polyhedral sets. PSVR is derived as a generalization of support vector regression, in which the data is represented by individual points along input variables $$X_1$$ , $$X_2$$ , $$\ldots $$ , $$X_p$$ and output variable Y, and extends a support vector classification model previously introduced for polyhedral data. PSVR is in essence a robust-optimization model, which defines prediction error as the largest deviation, calculated along Y, between an interpolating hyperplane and all points within a convex polyhedron; the model relies on the affine Farkas’ lemma to make this definition computationally tractable within the formulation. As an application, we consider the problem of regression with missing data, where we use convex polyhedra to model the multivariate uncertainty involving the unobserved values in a data set. For this purpose, we discuss a novel technique that builds on multiple imputation and principal component analysis to estimate convex polyhedra from missing data, and on a geometric characterization of such polyhedra to define observation-specific hyper-parameters in the PSVR model. We show that an appropriate calibration of such hyper-parameters can have a significantly beneficial impact on the model’s performance. Experiments on both synthetic and real-world data illustrate how PSVR performs competitively or better than other benchmark methods, especially on data sets with high degree of missingness.

中文翻译:

多面体和缺失数据的支持向量回归

我们介绍了“多面体支持向量回归”(PSVR),这是一种由任意凸多面体集表示的数据的回归模型。PSVR 是支持向量回归的泛化,其中数据由输入变量 $$X_1$$ 、 $$X_2$$ 、 $$\ldots $$ 、 $$X_p$$ 和输出变量上的单个点表示Y,并扩展了先前为多面体数据引入的支持向量分类模型。PSVR 本质上是一个鲁棒优化模型,它将预测误差定义为沿 Y 计算的插值超平面与凸多面体内所有点之间的最大偏差;该模型依赖于仿射 Farkas 引理来使该定义在公式中在计算上易于处理。作为一个应用,我们考虑缺失数据的回归问题,我们使用凸多面体来模拟涉及数据集中未观察到的值的多元不确定性。为此,我们讨论了一种新技术,该技术建立在多重插补和主成分分析的基础上,以从缺失数据中估计凸多面体,并基于此类多面体的几何特征来定义 PSVR 模型中特定于观察的超参数。我们表明,对此类超参数进行适当的校准可以对模型的性能产生显着的有益影响。对合成数据和真实数据的实验说明了 PSVR 如何比其他基准方法具有竞争力或更好的表现,尤其是在高度缺失的数据集上。我们讨论了一种新技术,该技术基于多重插补和主成分分析来从缺失数据估计凸多面体,并基于这种多面体的几何特征来定义 PSVR 模型中特定于观察的超参数。我们表明,对此类超参数进行适当的校准可以对模型的性能产生显着的有益影响。对合成数据和真实数据的实验说明了 PSVR 如何比其他基准方法具有竞争力或更好的表现,尤其是在高度缺失的数据集上。我们讨论了一种新技术,该技术基于多重插补和主成分分析来从缺失数据估计凸多面体,并基于这种多面体的几何特征来定义 PSVR 模型中特定于观察的超参数。我们表明,对此类超参数进行适当的校准可以对模型的性能产生显着的有益影响。对合成数据和真实数据的实验说明了 PSVR 如何比其他基准方法具有竞争力或更好的表现,尤其是在高度缺失的数据集上。我们表明,对此类超参数进行适当的校准可以对模型的性能产生显着的有益影响。对合成数据和真实数据的实验说明了 PSVR 如何比其他基准方法具有竞争力或更好的表现,尤其是在高度缺失的数据集上。我们表明,对此类超参数进行适当的校准可以对模型的性能产生显着的有益影响。对合成数据和真实数据的实验说明了 PSVR 如何比其他基准方法具有竞争力或更好的表现,尤其是在高度缺失的数据集上。
更新日期:2020-10-07
down
wechat
bug