当前位置: X-MOL 学术Pattern Recogn. › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
Star-based learning correlation clustering
Pattern Recognition ( IF 7.5 ) Pub Date : 2021-04-03 , DOI: 10.1016/j.patcog.2021.107966
Jialin Hua , Jian Yu , Miin-Shen Yang

Correlation clustering (CC) is a clustering method using a signed graph as input without specifying the number of clusters a priori. It had been widely used in real applications, such as social network and text mining. However, its exact optimization or approximate algorithms often give unsatisfactory results, especially for large-scale signed graphs. This paper tackles this problem and proposes a novel CC algorithm, termed star-based learning correlation clustering (SL-CC). The proposed SL-CC contains two phases. The first is a scale reduction for signed graphs. We propose a special motif, called a star structure, for reducing the scale of signed graphs. We assign the vertices within a star structure to have the same cluster label and then merge these vertices as a new vertex in the graph so we can shrink a large-scale graph to a much small-scale one. The second is to give a learning schema for the local search on the reduced graphs. It can discover some important stars as seeds of clusters according to the graph structure, and then justify whether the other stars need to be merged with seeds or not. We also construct a new integer linear programing (ILP) model based on cycle inequalities to perform the local search with final clustering results. The experiments and comparisons of the proposed SL-CC with some existing CC methods on synthetic and real data sets with variant scale structures of signed graphs demonstrate the efficiency and usefulness of the SL-CC algorithm.



中文翻译:

基于星的学​​习相关性聚类

相关性聚类(CC)是一种使用签名图作为输入而无需先验指定聚类数的聚类方法。它已被广泛用于诸如社交网络和文本挖掘之类的实际应用中。但是,其精确的优化或近似算法通常无法提供令人满意的结果,尤其是对于大型带符号图。本文解决了这个问题,并提出了一种新颖的CC算法,称为基于星的学​​习相关聚类(SL-CC)。拟议的SL-CC包含两个阶段。首先是缩小有符号图的比例。我们提出了一种特殊的主题,称为星型结构,以减小签名图的比例。我们将星形结构内的顶点分配为具有相同的簇标签,然后将这些顶点合并为图中的新顶点,以便将大型图缩小为小得多的图。第二个是在简化图上给出用于本地搜索的学习方案。它可以根据图结构发现一些重要的恒星,作为簇的种子,然后证明其他恒星是否需要与种子合并。我们还基于循环不等式构造了一个新的整数线性规划(ILP)模型,以对最终的聚类结果执行本地搜索。拟议的SL-CC算法与现有的一些CC方法在具有签名图的可变比例结构的合成数据集和真实数据集上的实验和比较证明了SL-CC算法的有效性和实用性。第二个是在简化图上给出用于本地搜索的学习方案。它可以根据图结构发现一些重要的恒星,作为簇的种子,然后证明其他恒星是否需要与种子合并。我们还基于循环不等式构造了一个新的整数线性规划(ILP)模型,以对最终的聚类结果执行本地搜索。拟议的SL-CC算法与现有的一些CC方法在具有签名图的可变比例结构的合成数据集和真实数据集上的实验和比较证明了SL-CC算法的有效性和实用性。第二个是在简化图上给出用于本地搜索的学习方案。它可以根据图结构发现一些重要的恒星,作为簇的种子,然后证明其他恒星是否需要与种子合并。我们还基于循环不等式构造了一个新的整数线性规划(ILP)模型,以对最终的聚类结果执行本地搜索。拟议的SL-CC算法与现有的一些CC方法在具有签名图的可变比例结构的合成数据集和真实数据集上的实验和比较证明了SL-CC算法的有效性和实用性。然后说明是否需要将其他恒星与种子合并。我们还基于循环不等式构造了一个新的整数线性规划(ILP)模型,以对最终的聚类结果执行本地搜索。拟议的SL-CC算法与现有的一些CC方法在具有签名图的可变比例结构的合成数据集和真实数据集上的实验和比较证明了SL-CC算法的有效性和实用性。然后说明是否需要将其他恒星与种子合并。我们还基于循环不等式构造了一个新的整数线性规划(ILP)模型,以对最终的聚类结果执行本地搜索。拟议的SL-CC算法与现有的一些CC方法在具有签名图的可变比例结构的合成数据集和真实数据集上的实验和比较证明了SL-CC算法的有效性和实用性。

更新日期:2021-04-04
down
wechat
bug