当前位置: X-MOL 学术J. Inf. Secur. Appl. › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
Inter-dataset generalization strength of supervised machine learning methods for intrusion detection
Journal of Information Security and Applications ( IF 5.6 ) Pub Date : 2020-06-15 , DOI: 10.1016/j.jisa.2020.102564
Laurens D’hooge , Tim Wauters , Bruno Volckaert , Filip De Turck

This article describes an experimental investigation into the inter-dataset generalization of supervised machine learning methods, trained to distinguish between benign and several classes of malicious network flows. The first part details the process and results of establishing reference classification scores on CIC-IDS2017 and CSE-CIC-IDS2018, two modern, labeled data sets for testing intrusion detection systems. The data sets are divided into several days each pertaining to different attack classes (DoS, DDoS, infiltration, botnet, etc.). A pipeline has been created that includes twelve supervised learning algorithms from different families. Subsequently to this comparative analysis the DoS / SSL and botnet attack classes, which are represented in both data sets and are well-classified by many algorithms, have been selected to test the inter-dataset generalization strength of the trained models. Exposure of these models to unseen, but related samples without additional training was expected to maintain high classification performance, but this assumption is shown to be erroneous (at least for the tested attack classes). To our knowledge, there is no prior literature that validates the efficacy of supervised ML-based intrusion detection systems outside of the dataset(s) on which they have been trained. Our first results question the implied link that great intra-dataset generalization leads to great inter- or extra-dataset generalization. Further experimentation is required to discover the scope and causes of this deficiency as well as potential solutions.



中文翻译:

有监督的机器学习方法在数据集间泛化强度的入侵检测

本文介绍了对有监督的机器学习方法的数据集间泛化的实验研究,该方法经过训练可以区分良性和几种恶意网络流。第一部分详细介绍了在CIC-IDS2017和CSE-CIC-IDS2018上建立参考分类评分的过程和结果,CIC-IDS2017和CSE-CIC-IDS2018是用于测试入侵检测系统的两个带有标签的现代数据集。数据集分为数天,每个数据集分别涉及不同的攻击类别(DoS,DDoS,渗透,僵尸网络等)。已经创建了一个管道,其中包括来自不同系列的十二种监督学习算法。在进行此比较分析之后,DoS / SSL和僵尸网络攻击类别在两种数据集中都有体现,并且通过许多算法进行了很好的分类,已选择测试训练模型的数据集间综合强度。将这些模型暴露在看不见的但未经额外训练的相关样本下,可以保持较高的分类性能,但是这种假设被证明是错误的(至少对于经过测试的攻击类别而言)。据我们所知,目前尚无任何文献可以验证基于ML的监督式入侵检测系统在其进行训练的数据集之外的功效。我们的第一个结果质疑伟大的数据集内部泛化导致伟大的内部或外部数据集泛化的隐含链接。需要进行进一步的实验以发现这种缺陷的范围和原因以及可能的解决方案。但是预计在没有额外培训的情况下,相关样本将保持较高的分类性能,但这种假设已被证明是错误的(至少对于经过测试的攻击类别而言)。据我们所知,目前尚无任何文献可以验证基于ML的监督式入侵检测系统在其进行训练的数据集之外的功效。我们的第一个结果质疑伟大的数据集内部泛化导致伟大的内部或外部数据集泛化的隐含链接。需要进行进一步的实验以发现这种缺陷的范围和原因以及可能的解决方案。但是预计在没有额外培训的情况下,相关样本将保持较高的分类性能,但这种假设已被证明是错误的(至少对于经过测试的攻击类别而言)。据我们所知,目前尚无任何文献可以验证基于ML的监督式入侵检测系统在其进行训练的数据集之外的功效。我们的第一个结果质疑伟大的数据集内部泛化导致伟大的内部或外部数据集泛化的隐含链接。需要进行进一步的实验以发现这种缺陷的范围和原因以及可能的解决方案。没有现有的文献可以验证在其进行训练的数据集之外,基于监督的基于ML的入侵检测系统的有效性。我们的第一个结果质疑伟大的数据集内部泛化导致伟大的内部或外部数据集泛化的隐含链接。需要进行进一步的实验以发现这种缺陷的范围和原因以及可能的解决方案。没有现有的文献可以验证在其进行训练的数据集之外,基于监督的基于ML的入侵检测系统的有效性。我们的第一个结果质疑伟大的数据集内部泛化导致伟大的内部或外部数据集泛化的隐含链接。需要进行进一步的实验以发现这种缺陷的范围和原因以及可能的解决方案。

更新日期:2020-06-15
down
wechat
bug