当前位置:
X-MOL 学术
›
IEEE Intell. Syst.
›
论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
Isolation Forest Based Anomaly Detection Framework on Non-IID Data
IEEE Intelligent Systems ( IF 6.4 ) Pub Date : 2021-02-12 , DOI: 10.1109/mis.2021.3057914 Haolong Xiang 1 , Jiayu Wang 2 , Kotagiri Ramamohanarao 2 , Zoran Salcic 1 , Wanchun Dou 3 , Xuyun Zhang 4
IEEE Intelligent Systems ( IF 6.4 ) Pub Date : 2021-02-12 , DOI: 10.1109/mis.2021.3057914 Haolong Xiang 1 , Jiayu Wang 2 , Kotagiri Ramamohanarao 2 , Zoran Salcic 1 , Wanchun Dou 3 , Xuyun Zhang 4
Affiliation
Anomaly detection is a significant but challenging data mining task in a wide range of applications. Different domains usually use different ways to measure the characteristics of data and to define the anomaly types. As a result, it is a big challenge to develop a versatile anomaly detection framework that can be universally applied with satisfactory performance in most, if not all, applications. In this article, we propose a generic isolation forest based ensemble framework named EDBHiForest, which can be universally applied to data spaces with arbitrary distance measures. It is realized through embedding the isolation forest structure with extended distance-based hashing (EDBH), which can significantly enhance the versatility and applicability of isolation forest based anomaly detection. This framework overcomes the limitations of existing isolation forest based methods that can only be applied to datasets with a very limited range of distance measure types. Extensive experiments on various non-independent and identically distributed datasets demonstrate the effectiveness and efficiency of our approach.
中文翻译:
基于隔离森林的非 IID 数据异常检测框架
在广泛的应用中,异常检测是一项重要但具有挑战性的数据挖掘任务。不同的领域通常使用不同的方式来衡量数据的特征和定义异常类型。因此,开发一种通用的异常检测框架是一个巨大的挑战,该框架可以普遍应用于大多数(如果不是全部)应用程序中并具有令人满意的性能。在本文中,我们提出了一个名为 EDBHiForest 的基于通用隔离森林的集成框架,它可以普遍应用于具有任意距离度量的数据空间。它是通过将隔离森林结构嵌入扩展基于距离的散列(EDBH)来实现的,可以显着增强基于隔离森林的异常检测的通用性和适用性。该框架克服了现有基于隔离森林的方法的局限性,这些方法只能应用于距离度量类型范围非常有限的数据集。对各种非独立和同分布数据集的大量实验证明了我们方法的有效性和效率。
更新日期:2021-02-12
中文翻译:
基于隔离森林的非 IID 数据异常检测框架
在广泛的应用中,异常检测是一项重要但具有挑战性的数据挖掘任务。不同的领域通常使用不同的方式来衡量数据的特征和定义异常类型。因此,开发一种通用的异常检测框架是一个巨大的挑战,该框架可以普遍应用于大多数(如果不是全部)应用程序中并具有令人满意的性能。在本文中,我们提出了一个名为 EDBHiForest 的基于通用隔离森林的集成框架,它可以普遍应用于具有任意距离度量的数据空间。它是通过将隔离森林结构嵌入扩展基于距离的散列(EDBH)来实现的,可以显着增强基于隔离森林的异常检测的通用性和适用性。该框架克服了现有基于隔离森林的方法的局限性,这些方法只能应用于距离度量类型范围非常有限的数据集。对各种非独立和同分布数据集的大量实验证明了我们方法的有效性和效率。