当前位置:
X-MOL 学术
›
arXiv.cs.DS
›
论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
Hierarchical Agglomerative Graph Clustering in Nearly-Linear Time
arXiv - CS - Data Structures and Algorithms Pub Date : 2021-06-10 , DOI: arxiv-2106.05610 Laxman Dhulipala, David Eisenstat, Jakub Łącki, Vahab Mirrokni, Jessica Shi
arXiv - CS - Data Structures and Algorithms Pub Date : 2021-06-10 , DOI: arxiv-2106.05610 Laxman Dhulipala, David Eisenstat, Jakub Łącki, Vahab Mirrokni, Jessica Shi
We study the widely used hierarchical agglomerative clustering (HAC)
algorithm on edge-weighted graphs. We define an algorithmic framework for
hierarchical agglomerative graph clustering that provides the first efficient
$\tilde{O}(m)$ time exact algorithms for classic linkage measures, such as
complete- and WPGMA-linkage, as well as other measures. Furthermore, for
average-linkage, arguably the most popular variant of HAC, we provide an
algorithm that runs in $\tilde{O}(n\sqrt{m})$ time. For this variant, this is
the first exact algorithm that runs in subquadratic time, as long as
$m=n^{2-\epsilon}$ for some constant $\epsilon > 0$. We complement this result
with a simple $\epsilon$-close approximation algorithm for average-linkage in
our framework that runs in $\tilde{O}(m)$ time. As an application of our
algorithms, we consider clustering points in a metric space by first using
$k$-NN to generate a graph from the point set, and then running our algorithms
on the resulting weighted graph. We validate the performance of our algorithms
on publicly available datasets, and show that our approach can speed up
clustering of point datasets by a factor of 20.7--76.5x.
中文翻译:
近线性时间内的分层凝聚图聚类
我们研究了边加权图上广泛使用的层次凝聚聚类 (HAC) 算法。我们为分层凝聚图聚类定义了一个算法框架,该框架为经典链接度量(例如完整链接和 WPGMA 链接以及其他度量)提供了第一个有效的时间精确算法。此外,对于平均链接,可以说是 HAC 最流行的变体,我们提供了一种在 $\tilde{O}(n\sqrt{m})$ 时间内运行的算法。对于这个变体,这是第一个在次二次时间内运行的精确算法,只要 $m=n^{2-\epsilon}$ 对于某些常数 $\epsilon > 0$。我们在我们的框架中用一个简单的 $\epsilon$-close 近似算法来补充这个结果,该算法在 $\tilde{O}(m)$ 时间内运行。作为我们算法的应用,我们考虑在度量空间中聚类点,首先使用 $k$-NN 从点集生成图,然后在生成的加权图上运行我们的算法。我们在公开可用的数据集上验证了我们的算法的性能,并表明我们的方法可以将点数据集的聚类速度提高 20.7--76.5 倍。
更新日期:2021-06-11
中文翻译:
近线性时间内的分层凝聚图聚类
我们研究了边加权图上广泛使用的层次凝聚聚类 (HAC) 算法。我们为分层凝聚图聚类定义了一个算法框架,该框架为经典链接度量(例如完整链接和 WPGMA 链接以及其他度量)提供了第一个有效的时间精确算法。此外,对于平均链接,可以说是 HAC 最流行的变体,我们提供了一种在 $\tilde{O}(n\sqrt{m})$ 时间内运行的算法。对于这个变体,这是第一个在次二次时间内运行的精确算法,只要 $m=n^{2-\epsilon}$ 对于某些常数 $\epsilon > 0$。我们在我们的框架中用一个简单的 $\epsilon$-close 近似算法来补充这个结果,该算法在 $\tilde{O}(m)$ 时间内运行。作为我们算法的应用,我们考虑在度量空间中聚类点,首先使用 $k$-NN 从点集生成图,然后在生成的加权图上运行我们的算法。我们在公开可用的数据集上验证了我们的算法的性能,并表明我们的方法可以将点数据集的聚类速度提高 20.7--76.5 倍。