当前位置: X-MOL 学术J. Comput. Graph. Stat. › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
Simultaneous Dimensionality and Complexity Model Selection for Spectral Graph Clustering
Journal of Computational and Graphical Statistics ( IF 1.4 ) Pub Date : 2020-10-21 , DOI: 10.1080/10618600.2020.1824870
Congyuan Yang 1 , Carey E. Priebe 2 , Youngser Park 3 , David J. Marchette 4
Affiliation  

Our problem of interest is to cluster vertices of a graph by identifying underlying community structure. Among various vertex clustering approaches, spectral clustering is one of the most popular methods because it is easy to implement while often outperforming more traditional clustering algorithms. However, there are two inherent model selection problems in spectral clustering, namely estimating both the embedding dimension and number of clusters. This paper attempts to address the issue by establishing a novel model selection framework specifically for vertex clustering on graphs under a stochastic block model. The first contribution is a probabilistic model which approximates the distribution of the extended spectral embedding of a graph. The model is constructed based on a theoretical result of asymptotic normality of the informative part of the embedding, and on a simulation result providing a conjecture for the limiting behavior of the redundant part of the embedding. The second contribution is a simultaneous model selection framework. In contrast with the traditional approaches, our model selection procedure estimates embedding dimension and number of clusters simultaneously. Based on our conjectured distributional model, a theorem on the consistency of the estimates of model parameters is presented, providing support for the validity of our method. Algorithms for our simultaneous model selection for vertex clustering are proposed, demonstrating superior performance in simulation experiments. We illustrate our method via application to a collection of brain graphs.

中文翻译:

谱图聚类的同时维数和复杂度模型选择

我们感兴趣的问题是通过识别底层社区结构来聚类图的顶点。在各种顶点聚类方法中,谱聚类是最流行的方法之一,因为它易于实现,同时通常优于更传统的聚类算法。然而,谱聚类中存在两个固有的模型选择问题,即估计嵌入维数和聚类数。本文试图通过建立一个新的模型选择框架来解决这个问题,该框架专门用于随机块模型下图上的顶点聚类。第一个贡献是一个概率模型,它近似于图的扩展谱嵌入的分布。该模型是基于嵌入的信息部分的渐近正态性的理论结果以及为嵌入的冗余部分的限制行为提供猜想的模拟结果构建的。第二个贡献是同步模型选择框架。与传统方法相比,我们的模型选择程序同时估计嵌入维度和集群数量。基于我们推测的分布模型,给出了模型参数估计值的一致性定理,为我们方法的有效性提供了支持。我们提出了用于顶点聚类的同时模型选择的算法,在模拟实验中展示了优越的性能。我们通过应用到一组脑图来说明我们的方法。以及模拟结果为嵌入的冗余部分的限制行为提供了猜想。第二个贡献是同步模型选择框架。与传统方法相比,我们的模型选择过程同时估计嵌入维度和集群数量。基于我们推测的分布模型,给出了模型参数估计值的一致性定理,为我们方法的有效性提供了支持。我们提出了用于顶点聚类的同时模型选择的算法,在模拟实验中展示了优越的性能。我们通过应用到一组脑图来说明我们的方法。以及模拟结果为嵌入的冗余部分的限制行为提供了猜想。第二个贡献是同步模型选择框架。与传统方法相比,我们的模型选择程序同时估计嵌入维度和集群数量。基于我们推测的分布模型,给出了模型参数估计值的一致性定理,为我们方法的有效性提供了支持。我们提出了用于顶点聚类的同时模型选择的算法,在模拟实验中展示了优越的性能。我们通过应用到一组脑图来说明我们的方法。第二个贡献是同步模型选择框架。与传统方法相比,我们的模型选择程序同时估计嵌入维度和集群数量。基于我们推测的分布模型,给出了模型参数估计值的一致性定理,为我们方法的有效性提供了支持。我们提出了用于顶点聚类的同时模型选择的算法,在模拟实验中展示了优越的性能。我们通过应用到一组脑图来说明我们的方法。第二个贡献是同步模型选择框架。与传统方法相比,我们的模型选择程序同时估计嵌入维度和集群数量。基于我们推测的分布模型,给出了模型参数估计值的一致性定理,为我们方法的有效性提供了支持。我们提出了用于顶点聚类的同时模型选择的算法,在模拟实验中展示了优越的性能。我们通过应用到一组脑图来说明我们的方法。给出了模型参数估计一致性的定理,为我们方法的有效性提供了支持。我们提出了用于顶点聚类的同时模型选择的算法,在模拟实验中展示了优越的性能。我们通过应用到一组脑图来说明我们的方法。给出了模型参数估计一致性的定理,为我们方法的有效性提供了支持。我们提出了用于顶点聚类的同时模型选择的算法,在模拟实验中展示了优越的性能。我们通过应用到一组脑图来说明我们的方法。
更新日期:2020-10-21
down
wechat
bug