当前位置: X-MOL 学术arXiv.cs.LG › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
Efficient SVDD Sampling with Approximation Guarantees for the Decision Boundary
arXiv - CS - Machine Learning Pub Date : 2020-09-29 , DOI: arxiv-2009.13853
Adrian Englhardt, Holger Trittenbach, Daniel Kottke, Bernhard Sick, and Klemens B\"ohm

Support Vector Data Description (SVDD) is a popular one-class classifiers for anomaly and novelty detection. But despite its effectiveness, SVDD does not scale well with data size. To avoid prohibitive training times, sampling methods select small subsets of the training data on which SVDD trains a decision boundary hopefully equivalent to the one obtained on the full data set. According to the literature, a good sample should therefore contain so-called boundary observations that SVDD would select as support vectors on the full data set. However, non-boundary observations also are essential to not fragment contiguous inlier regions and avoid poor classification accuracy. Other aspects, such as selecting a sufficiently representative sample, are important as well. But existing sampling methods largely overlook them, resulting in poor classification accuracy. In this article, we study how to select a sample considering these points. Our approach is to frame SVDD sampling as an optimization problem, where constraints guarantee that sampling indeed approximates the original decision boundary. We then propose RAPID, an efficient algorithm to solve this optimization problem. RAPID does not require any tuning of parameters, is easy to implement and scales well to large data sets. We evaluate our approach on real-world and synthetic data. Our evaluation is the most comprehensive one for SVDD sampling so far. Our results show that RAPID outperforms its competitors in classification accuracy, in sample size, and in runtime.

中文翻译:

有效的 SVDD 采样和决策边界的近似保证

支持向量数据描述 (SVDD) 是一种流行的一类分类器,用于异常和新颖性检测。但是,尽管它很有效,但 SVDD 不能很好地随数据大小扩展。为了避免过长的训练时间,采样方法选择训练数据的小子集,SVDD 在这些子集上训练决策边界,希望与在完整数据集上获得的决策边界等效。根据文献,一个好的样本因此应该包含所谓的边界观察,SVDD 将选择这些观察作为完整数据集上的支持向量。然而,非边界观察对于不分割连续的内层​​区域和避免分类精度差也是必不可少的。其他方面,例如选择足够具有代表性的样本,也很重要。但是现有的抽样方法在很大程度上忽略了它们,导致分类准确率不高。在本文中,我们研究如何在考虑这些点的情况下选择样本。我们的方法是将 SVDD 采样作为一个优化问题,其中约束保证采样确实接近原始决策边界。然后,我们提出了 RAPID,这是一种解决此优化问题的有效算法。RAPID 不需要任何参数调整,易于实施并且可以很好地扩展到大型数据集。我们在真实世界和合成数据上评估我们的方法。我们的评估是迄今为止对 SVDD 采样最全面的评估。我们的结果表明,RAPID 在分类准确度、样本大小和运行时间方面都优于其竞争对手。我们的方法是将 SVDD 采样作为一个优化问题,其中约束保证采样确实接近原始决策边界。然后,我们提出了 RAPID,这是一种解决此优化问题的有效算法。RAPID 不需要任何参数调整,易于实施并且可以很好地扩展到大型数据集。我们在真实世界和合成数据上评估我们的方法。我们的评估是迄今为止对 SVDD 采样最全面的评估。我们的结果表明,RAPID 在分类准确度、样本大小和运行时间方面都优于其竞争对手。我们的方法是将 SVDD 采样作为一个优化问题,其中约束保证采样确实接近原始决策边界。然后,我们提出了 RAPID,这是一种解决此优化问题的有效算法。RAPID 不需要任何参数调整,易于实施并且可以很好地扩展到大型数据集。我们在真实世界和合成数据上评估我们的方法。我们的评估是迄今为止对 SVDD 采样最全面的评估。我们的结果表明,RAPID 在分类准确度、样本大小和运行时间方面都优于其竞争对手。易于实现并且可以很好地扩展到大型数据集。我们在真实世界和合成数据上评估我们的方法。我们的评估是迄今为止对 SVDD 采样最全面的评估。我们的结果表明,RAPID 在分类准确度、样本大小和运行时间方面都优于其竞争对手。易于实现并且可以很好地扩展到大型数据集。我们在真实世界和合成数据上评估我们的方法。我们的评估是迄今为止对 SVDD 采样最全面的评估。我们的结果表明,RAPID 在分类准确度、样本大小和运行时间方面都优于其竞争对手。
更新日期:2020-09-30
down
wechat
bug