当前位置: X-MOL 学术IEEE Trans. Inform. Forensics Secur. › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
Debiasing Android Malware Datasets: How Can I Trust Your Results If Your Dataset Is Biased?
IEEE Transactions on Information Forensics and Security ( IF 6.8 ) Pub Date : 2022-06-03 , DOI: 10.1109/tifs.2022.3180184
Tomas Concepcion Miranda 1 , Pierre-Francois Gimenez 1 , Jean-Francois Lalande 1 , Valerie Viet Triem Tong 1 , Pierre Wilke 1
Affiliation  

Android security has received a lot of attention over the last decade, especially malware investigation. Researchers attempt to highlight applications’ security-relevant characteristics to better understand malware and effectively distinguish malware from benign applications. The accuracy and the completeness of their proposals are evaluated experimentally on malware and goodware datasets. Thus, the quality of these datasets is of critical importance: if the datasets are outdated or not representative of the studied population, the conclusions may be flawed. We specify different types of experimental scenarios. Some of them require unlabeled but representative datasets of the entire population. Others require datasets labeled with valuable characteristics that may be difficult to compute, such as malware datasets. We discuss the irregularities of datasets used in experiments, questioning the validity of the performances reported in the literature. This article focuses on providing guidelines for designing debiased datasets. First, we propose guidelines for building representative datasets from unlabeled ones. Second, we propose and experiment a debiasing algorithm that, given a biased labeled dataset and a target representative dataset, builds a representative and labeled dataset. Finally, from the previous debiased datasets, we produce datasets for experiments on Android malware detection or classification with machine learning algorithms. Experiments show that debiased datasets perform better when classifying with machine learning algorithms.

中文翻译:

消除 Android 恶意软件数据集的偏差:如果您的数据集有偏差,我如何相信您的结果?

在过去十年中,Android 安全受到了很多关注,尤其是恶意软件调查。研究人员试图突出应用程序的安全相关特征,以更好地理解恶意软件并有效地区分恶意软件和良性应用程序。他们的建议的准确性和完整性在恶意软件和好软件数据集上进行了实验评估。因此,这些数据集的质量至关重要:如果数据集已过时或不能代表所研究的人群,则结论可能存在缺陷。我们指定了不同类型的实验场景。其中一些需要整个人群的未标记但具有代表性的数据集。其他人需要标记有可能难以计算的有价值特征的数据集,例如恶意软件数据集。我们讨论了实验中使用的数据集的不规则性,质疑文献中报告的性能的有效性。本文重点介绍设计去偏数据集的指南。首先,我们提出了从未标记数据集构建代表性数据集的指南。其次,我们提出并试验了一种去偏算法,给定一个有偏的标记数据集和一个目标代表数据集,构建一个具有代表性和标记的数据集。最后,从之前的去偏数据集中,我们生成数据集,用于使用机器学习算法进行 Android 恶意软件检测或分类实验。实验表明,去偏数据集在使用机器学习算法进行分类时表现更好。本文重点介绍设计去偏数据集的指南。首先,我们提出了从未标记数据集构建代表性数据集的指南。其次,我们提出并试验了一种去偏算法,给定一个有偏的标记数据集和一个目标代表数据集,构建一个具有代表性和标记的数据集。最后,从之前的去偏数据集中,我们生成数据集,用于使用机器学习算法进行 Android 恶意软件检测或分类实验。实验表明,去偏数据集在使用机器学习算法进行分类时表现更好。本文重点介绍设计去偏数据集的指南。首先,我们提出了从未标记数据集构建代表性数据集的指南。其次,我们提出并试验了一种去偏算法,给定一个有偏的标记数据集和一个目标代表数据集,构建一个具有代表性和标记的数据集。最后,从之前的去偏数据集中,我们生成数据集,用于使用机器学习算法进行 Android 恶意软件检测或分类实验。实验表明,去偏数据集在使用机器学习算法进行分类时表现更好。给定一个有偏差的标记数据集和一个目标代表数据集,构建一个具有代表性和标记的数据集。最后,从之前的去偏数据集中,我们生成数据集,用于使用机器学习算法进行 Android 恶意软件检测或分类实验。实验表明,去偏数据集在使用机器学习算法进行分类时表现更好。给定一个有偏差的标记数据集和一个目标代表数据集,构建一个具有代表性和标记的数据集。最后,从之前的去偏数据集中,我们生成数据集,用于使用机器学习算法进行 Android 恶意软件检测或分类实验。实验表明,去偏数据集在使用机器学习算法进行分类时表现更好。
更新日期:2022-06-03
down
wechat
bug