当前位置: X-MOL 学术EURASIP J. Wirel. Commun. Netw. › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
A quantitative discriminant method of elbow point for the optimal number of clusters in clustering algorithm
EURASIP Journal on Wireless Communications and Networking ( IF 2.6 ) Pub Date : 2021-02-15 , DOI: 10.1186/s13638-021-01910-w
Congming Shi , Bingtao Wei , Shoulin Wei , Wen Wang , Hai Liu , Jialei Liu

Clustering, a traditional machine learning method, plays a significant role in data analysis. Most clustering algorithms depend on a predetermined exact number of clusters, whereas, in practice, clusters are usually unpredictable. Although the Elbow method is one of the most commonly used methods to discriminate the optimal cluster number, the discriminant of the number of clusters depends on the manual identification of the elbow points on the visualization curve. Thus, experienced analysts cannot clearly identify the elbow point from the plotted curve when the plotted curve is fairly smooth. To solve this problem, a new elbow point discriminant method is proposed to yield a statistical metric that estimates an optimal cluster number when clustering on a dataset. First, the average degree of distortion obtained by the Elbow method is normalized to the range of 0 to 10. Second, the normalized results are used to calculate the cosine of intersection angles between elbow points. Third, this calculated cosine of intersection angles and the arccosine theorem are used to compute the intersection angles between elbow points. Finally, the index of the above-computed minimal intersection angles between elbow points is used as the estimated potential optimal cluster number. The experimental results based on simulated datasets and a well-known public dataset (Iris Dataset) demonstrated that the estimated optimal cluster number obtained by our newly proposed method is better than the widely used Silhouette method.



中文翻译:

聚类算法中最优簇数的肘点定量判别方法

聚类是一种传统的机器学习方法,在数据分析中起着重要作用。大多数聚类算法取决于预定的确切簇数,而实际上,簇通常是不可预测的。尽管弯头法是区分最佳聚类数的最常用方法之一,但是聚类数的判别取决于可视化曲线上弯头的手动识别。因此,当绘制的曲线相当平滑时,经验丰富的分析人员无法从绘制的曲线中清楚地识别出弯头。为了解决这个问题,提出了一种新的肘点判别方法以产生统计量度,该统计量度在对数据集进行聚类时估计最佳的聚类数。第一的,将通过肘部法获得的平均变形度标准化为0到10的范围。其次,将标准化结果用于计算肘部之间的相交角的余弦值。第三,此计算出的交角余弦和反余弦定理用于计算肘点之间的交角。最后,将以上计算的肘点之间的最小相交角的索引用作估计的潜在最佳簇数。基于模拟数据集和著名的公共数据集(Iris Dataset)的实验结果表明,我们新提出的方法获得的估计最佳聚类数比广泛使用的Silhouette方法要好。归一化的结果用于计算肘点之间的相交角的余弦。第三,此计算出的交角余弦和反余弦定理用于计算肘点之间的交角。最后,将以上计算的肘点之间的最小相交角的索引用作估计的潜在最佳簇数。基于模拟数据集和著名的公共数据集(Iris Dataset)的实验结果表明,我们新提出的方法获得的估计最佳聚类数比广泛使用的Silhouette方法要好。归一化的结果用于计算肘点之间的相交角的余弦。第三,此计算出的交角余弦和反余弦定理用于计算肘点之间的交角。最后,将以上计算的肘点之间的最小相交角的索引用作估计的潜在最佳簇数。基于模拟数据集和著名的公共数据集(Iris Dataset)的实验结果表明,我们新提出的方法获得的估计最佳聚类数比广泛使用的Silhouette方法要好。将以上计算的肘点之间的最小相交角的指标用作估计的潜在最佳簇数。基于模拟数据集和著名的公共数据集(Iris Dataset)的实验结果表明,我们新提出的方法获得的估计最佳聚类数比广泛使用的Silhouette方法要好。将以上计算的肘点之间的最小相交角的指标用作估计的潜在最佳簇数。基于模拟数据集和著名的公共数据集(Iris Dataset)的实验结果表明,我们新提出的方法获得的估计最佳聚类数比广泛使用的Silhouette方法要好。

更新日期:2021-02-15
down
wechat
bug