当前位置: X-MOL 学术Journal of Applied Security Research › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
Improving Classification Performance for Malware Detection Using Genetic Programming Feature Selection Techniques
Journal of Applied Security Research Pub Date : 2022-05-01 , DOI: 10.1080/19361610.2022.2067459
Heba Harahsheh 1 , Mohammad Alshraideh 1 , Saleh Al-Sharaeh 1 , Rizik Al-Sayyed 1
Affiliation  

Abstract

Malware is the term used to describe any malicious software or code that is harmful to systems. From day to day, new malicious programs appear. To classify malware according to its characteristics, machine learning is now being used; this is because most new malware contains patterns that are similar to old ones. This paper proposes two feature selection methods based on Genetic Programming (GP) for predicting malware; the first is called Genetic Programming-Mean (GPM), and the second is called Genetic Programming-Mean Plus (GPMP). The results of these two methods were compared with three state-of-the-art popular feature selection techniques: filter-based, wrapper-based, and Chi-square. In this work, we compare the two proposed methods (GPM and GPMP) with these three widely used feature selection techniques. The results demonstrate that the proposed techniques beat these state-of-the-art ones in terms of accuracy and F-score. The results also revealed that the proposed methods employed less computation time and hence an enhanced performance when compared with filter-based, and wrapper-based feature selection. The proposed methods were evaluated using four datasets. Two classifiers were used to evaluate the proposed feature selection methods: Random Forest and Decision Tree. When a Random Forest classifier is used, our results showed that it outperformed the Decision Tree classifier in indicators, such as F1-score, recall, and precision. The analysis of results using Random Forest and Decision Tree proves that the proposed method is highly efficient.



中文翻译:

使用遗传编程特征选择技术提高恶意软件检测的分类性能

摘要

恶意软件是用于描述对系统有害的任何恶意软件或代码的术语。每天都会出现新的恶意程序。为了根据恶意软件的特征对其进行分类,现在正在使用机器学习;这是因为大多数新恶意软件包含与旧恶意软件相似的模式。本文提出了两种基于遗传编程(GP)的特征选择方法来预测恶意软件;第一个称为遗传编程均值 (GPM),第二个称为遗传编程均值 Plus (GPMP)。将这两种方法的结果与三种最先进的流行特征选择技术进行了比较:基于过滤器、基于包装器和卡方。在这项工作中,我们将两种提出的方​​法(GPM 和 GPMP)与这三种广泛使用的特征选择技术进行比较。结果表明,所提出的技术在准确性和 F 分数方面击败了这些最先进的技术。结果还表明,与基于过滤器和基于包装器的特征选择相比,所提出的方法使用更少的计算时间,因此具有增强的性能。使用四个数据集评估所提出的方法。使用两个分类器来评估所提出的特征选择方法:随机森林和决策树。当使用随机森林分类器时,我们的结果表明它在 F1 分数、召回率和精度等指标上优于决策树分类器。使用随机森林和决策树的结果分析证明了该方法的高效性。结果还表明,与基于过滤器和基于包装器的特征选择相比,所提出的方法使用更少的计算时间,因此具有增强的性能。使用四个数据集评估所提出的方法。使用两个分类器来评估所提出的特征选择方法:随机森林和决策树。当使用随机森林分类器时,我们的结果表明它在 F1 分数、召回率和精度等指标上优于决策树分类器。使用随机森林和决策树的结果分析证明了该方法的高效性。结果还表明,与基于过滤器和基于包装器的特征选择相比,所提出的方法使用更少的计算时间,因此具有增强的性能。使用四个数据集评估所提出的方法。使用两个分类器来评估所提出的特征选择方法:随机森林和决策树。当使用随机森林分类器时,我们的结果表明它在 F1 分数、召回率和精度等指标上优于决策树分类器。使用随机森林和决策树的结果分析证明了该方法的高效性。使用两个分类器来评估所提出的特征选择方法:随机森林和决策树。当使用随机森林分类器时,我们的结果表明它在 F1 分数、召回率和精度等指标上优于决策树分类器。使用随机森林和决策树的结果分析证明了该方法的高效性。使用两个分类器来评估所提出的特征选择方法:随机森林和决策树。当使用随机森林分类器时,我们的结果表明它在 F1 分数、召回率和精度等指标上优于决策树分类器。使用随机森林和决策树的结果分析证明了该方法的高效性。

更新日期:2022-05-01
down
wechat
bug