当前位置: X-MOL 学术Complex Intell. Syst. › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
Comparative evaluation of pattern mining techniques: an empirical study
Complex & Intelligent Systems ( IF 5.8 ) Pub Date : 2020-11-11 , DOI: 10.1007/s40747-020-00226-4
Anindita Borah , Bhabesh Nath

Pattern mining has emerged as a compelling field of data mining over the years. Literature has bestowed ample endeavors in this field of research ranging from frequent pattern mining to rare pattern mining. A precise and impartial analysis of the existing pattern mining techniques has therefore become essential to widen the scope of data analysis using the notion of pattern mining. This paper is therefore an attempt to provide a comparative scrutiny of the fundamental algorithms in the field of pattern mining through performance analysis based on several decisive parameters. The paper provides a structural classification of the widely referenced techniques in four pattern mining categories: frequent, maximal frequent, closed frequent and rare. It provides an analytical comparison of these techniques based on computational time and memory consumption using benchmark real and synthetic data sets. The results illustrate that tree based approaches perform exceptionally well over level wise approaches in case of dense data sets for all the categories. However, for sparse data sets, level wise approaches performed better than the former ones. This study has been carried out with an aim to analyze the pros and cons of the well known pattern mining techniques under different categories. Through this empirical study, an endeavor has been made to enable the researchers identify some fruitful and promising research directions in one of the most remarkable area of research, pattern mining.



中文翻译:

模式挖掘技术的比较评估:一项实证研究

多年来,模式挖掘已成为数据挖掘的引人注目的领域。从频繁的模式挖掘到稀有的模式挖掘,文献已经在这一研究领域做出了充分的努力。因此,对现有的模式挖掘技术进行精确而公正的分析对于使用模式挖掘的概念来扩大数据分析的范围变得至关重要。因此,本文试图通过基于几个决定性参数的性能分析,对模式挖掘领域的基本算法进行比较研究。本文在四个模式挖掘类别中提供了广泛引用的技术的结构分类:频繁,最大频繁,封闭频繁和稀有。它使用基准实数和合成数据集,基于计算时间和内存消耗,对这些技术进行了分析比较。结果表明,在所有类别的数据集都密集的情况下,基于树的方法比基于层次的方法表现出色。但是,对于稀疏数据集,逐级方法的效果要好于以前的方法。进行这项研究的目的是分析不同类别下众所周知的模式挖掘技术的利弊。通过这项实证研究,已经做出了努力,以使研究人员能够在模式挖掘的最杰出研究领域之一中找到一些富有成果和有希望的研究方向。结果表明,在所有类别的数据集都密集的情况下,基于树的方法比基于层次的方法表现出色。但是,对于稀疏数据集,逐级方法的效果要好于以前的方法。进行这项研究的目的是分析不同类别下众所周知的模式挖掘技术的利弊。通过这项实证研究,已经做出了努力,以使研究人员能够在模式挖掘的最杰出研究领域之一中找到一些富有成果和有希望的研究方向。结果表明,在所有类别的数据集都密集的情况下,基于树的方法比基于层次的方法表现出色。但是,对于稀疏数据集,逐级方法的效果要好于以前的方法。进行这项研究的目的是分析不同类别下众所周知的模式挖掘技术的利弊。通过这项实证研究,已经做出了努力,以使研究人员能够在模式挖掘的最杰出研究领域之一中找到一些富有成果和有希望的研究方向。进行这项研究的目的是分析不同类别下众所周知的模式挖掘技术的利弊。通过这项实证研究,已经做出了努力,以使研究人员能够在模式挖掘的最杰出研究领域之一中找到一些富有成果和有希望的研究方向。进行这项研究的目的是分析不同类别下众所周知的模式挖掘技术的利弊。通过这项实证研究,已经做出了努力,以使研究人员能够在模式挖掘的最杰出研究领域之一中找到一些富有成果和有希望的研究方向。

更新日期:2020-11-12
down
wechat
bug