当前位置: X-MOL 学术Neurocomputing › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
Hub-based Subspace Clustering
Neurocomputing ( IF 6 ) Pub Date : 2020-11-01 , DOI: 10.1016/j.neucom.2020.06.098
Priya Mani , Carlotta Domeniconi

Abstract Data often exists in subspaces embedded within a high-dimensional space. Subspace clustering seeks to group data according to the dimensions relevant to each subspace. This requires the estimation of subspaces as well as the clustering of data. Subspace clustering becomes increasingly challenging in high dimensional spaces due to the curse of dimensionality which affects reliable estimations of distances and density. Recently, another aspect of high-dimensional spaces has been observed, known as the hubness phenomenon, whereby few data points appear frequently as nearest neighbors of the rest of the data. The distribution of neighbor occurrences becomes skewed with increasing intrinsic dimensionality of the data, and few points with high neighbor occurrences emerge as hubs. Hubs exhibit useful geometric properties and have been leveraged for clustering data in the full-dimensional space. In this paper, we study hubs in the context of subspace clustering. We present new characterizations of hubs in relation to subspaces, and design graph-based meta-features to identify a subset of hubs which are well fit to serve as seeds for the discovery of local latent subspaces and clusters. We propose and evaluate a hubness-driven algorithm to find subspace clusters, and show that our approach is superior to the baselines, and is competitive against state-of-the-art subspace clustering methods. We also identify the data characteristics that make hubs suitable for subspace clustering. Such characterization gives valuable guidelines to data mining practitioners.

中文翻译:

基于集线器的子空间聚类

摘要 数据通常存在于嵌入高维空间的子空间中。子空间聚类试图根据与每个子空间相关的维度对数据进行分组。这需要子空间的估计以及数据的聚类。由于维数灾难影响距离和密度的可靠估计,子空间聚类在高维空间中变得越来越具有挑战性。最近,已经观察到高维空间的另一个方面,称为中心现象,其中很少有数据点经常作为其余数据的最近邻居出现。随着数据内在维度的增加,相邻出现的分布变得倾斜,并且很少有具有高相邻出现的点作为中心出现。集线器表现出有用的几何特性,并已被用于在全维空间中对数据进行聚类。在本文中,我们在子空间聚类的背景下研究中心。我们提出了与子空间相关的集线器的新特征,并设计了基于图的元特征来识别一个集线器子集,这些集线器非常适合作为发现局部潜在子空间和集群的种子。我们提出并评估了一种中心驱动算法来寻找子空间聚类,并表明我们的方法优于基线,并且与最先进的子空间聚类方法相比具有竞争力。我们还确定了使集线器适用于子空间聚类的数据特征。这种表征为数据挖掘从业者提供了宝贵的指导。我们在子空间聚类的背景下研究中心。我们提出了与子空间相关的集线器的新特征,并设计了基于图的元特征来识别一个集线器子集,这些集线器非常适合作为发现局部潜在子空间和集群的种子。我们提出并评估了一种中心驱动算法来寻找子空间聚类,并表明我们的方法优于基线,并且与最先进的子空间聚类方法相比具有竞争力。我们还确定了使集线器适用于子空间聚类的数据特征。这种表征为数据挖掘从业者提供了宝贵的指导。我们在子空间聚类的背景下研究中心。我们提出了与子空间相关的集线器的新特征,并设计了基于图的元特征来识别一个集线器子集,这些集线器非常适合作为发现局部潜在子空间和集群的种子。我们提出并评估了一种中心驱动算法来寻找子空间聚类,并表明我们的方法优于基线,并且与最先进的子空间聚类方法相比具有竞争力。我们还确定了使集线器适用于子空间聚类的数据特征。这种特征为数据挖掘从业者提供了宝贵的指导。并设计基于图的元特征来识别一个集线器的子集,这些集线器非常适合作为发现局部潜在子空间和集群的种子。我们提出并评估了一种中心驱动算法来寻找子空间聚类,并表明我们的方法优于基线,并且与最先进的子空间聚类方法相比具有竞争力。我们还确定了使集线器适用于子空间聚类的数据特征。这种表征为数据挖掘从业者提供了宝贵的指导。并设计基于图的元特征来识别一个集线器的子集,这些集线器非常适合作为发现局部潜在子空间和集群的种子。我们提出并评估了一种中心驱动算法来寻找子空间聚类,并表明我们的方法优于基线,并且与最先进的子空间聚类方法相比具有竞争力。我们还确定了使集线器适用于子空间聚类的数据特征。这种表征为数据挖掘从业者提供了宝贵的指导。我们还确定了使集线器适用于子空间聚类的数据特征。这种表征为数据挖掘从业者提供了宝贵的指导。我们还确定了使集线器适用于子空间聚类的数据特征。这种表征为数据挖掘从业者提供了宝贵的指导。
更新日期:2020-11-01
down
wechat
bug