当前位置: X-MOL 学术arXiv.cs.NE › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
On Explaining Machine Learning Models by Evolving Crucial and Compact Features
arXiv - CS - Neural and Evolutionary Computing Pub Date : 2019-07-04 , DOI: arxiv-1907.02260
Marco Virgolin, Tanja Alderliesten, Peter A.N. Bosman

Feature construction can substantially improve the accuracy of Machine Learning (ML) algorithms. Genetic Programming (GP) has been proven to be effective at this task by evolving non-linear combinations of input features. GP additionally has the potential to improve ML explainability since explicit expressions are evolved. Yet, in most GP works the complexity of evolved features is not explicitly bound or minimized though this is arguably key for explainability. In this article, we assess to what extent GP still performs favorably at feature construction when constructing features that are (1) Of small-enough number, to enable visualization of the behavior of the ML model; (2) Of small-enough size, to enable interpretability of the features themselves; (3) Of sufficient informative power, to retain or even improve the performance of the ML algorithm. We consider a simple feature construction scheme using three different GP algorithms, as well as random search, to evolve features for five ML algorithms, including support vector machines and random forest. Our results on 21 datasets pertaining to classification and regression problems show that constructing only two compact features can be sufficient to rival the use of the entire original feature set. We further find that a modern GP algorithm, GP-GOMEA, performs best overall. These results, combined with examples that we provide of readable constructed features and of 2D visualizations of ML behavior, lead us to positively conclude that GP-based feature construction still works well when explicitly searching for compact features, making it extremely helpful to explain ML models.

中文翻译:

通过进化关键和紧凑特征来解释机器学习模型

特征构建可以显着提高机器学习 (ML) 算法的准确性。通过演化输入特征的非线性组合,遗传编程 (GP) 已被证明在此任务中是有效的。由于显式表达式的发展,GP 还具有提高 ML 可解释性的潜力。然而,在大多数 GP 工作中,进化特征的复杂性并未明确限制或最小化,尽管这可以说是可解释性的关键。在本文中,我们评估了 GP 在构建特征时在多大程度上仍然在特征构建方面表现出色: (1) 数量足够少,以实现 ML 模型行为的可视化;(2) 足够小的尺寸,以实现特征本身的可解释性;(3) 足够的信息量,保留甚至提高 ML 算法的性能。我们考虑使用三种不同的 GP 算法以及随机搜索的简单特征构建方案,以进化五种 ML 算法的特征,包括支持向量机和随机森林。我们在 21 个与分类和回归问题相关的数据集上的结果表明,仅构建两个紧凑的特征就足以与整个原始特征集的使用相媲美。我们进一步发现现代 GP 算法 GP-GOMEA 整体性能最佳。这些结果与我们提供的可读构造特征和 ML 行为的 2D 可视化示例相结合,使我们得出肯定的结论,即在显式搜索紧凑特征时,基于 GP 的特征构造仍然可以很好地工作,这对解释 ML 模型非常有帮助. 我们考虑使用三种不同的 GP 算法以及随机搜索的简单特征构建方案,以进化五种 ML 算法的特征,包括支持向量机和随机森林。我们在 21 个与分类和回归问题相关的数据集上的结果表明,仅构建两个紧凑的特征就足以与整个原始特征集的使用相媲美。我们进一步发现现代 GP 算法 GP-GOMEA 整体性能最佳。这些结果与我们提供的可读构造特征和 ML 行为的 2D 可视化示例相结合,使我们得出肯定的结论,即在显式搜索紧凑特征时,基于 GP 的特征构造仍然可以很好地工作,这对解释 ML 模型非常有帮助. 我们考虑使用三种不同的 GP 算法以及随机搜索的简单特征构建方案,以进化五种 ML 算法的特征,包括支持向量机和随机森林。我们在 21 个与分类和回归问题相关的数据集上的结果表明,仅构建两个紧凑的特征就足以与整个原始特征集的使用相媲美。我们进一步发现现代 GP 算法 GP-GOMEA 整体性能最佳。这些结果与我们提供的可读构造特征和 ML 行为的 2D 可视化示例相结合,使我们得出肯定的结论,即在显式搜索紧凑特征时,基于 GP 的特征构造仍然可以很好地工作,这对解释 ML 模型非常有帮助. 为五种 ML 算法进化特征,包括支持向量机和随机森林。我们在 21 个与分类和回归问题相关的数据集上的结果表明,仅构建两个紧凑的特征就足以与整个原始特征集的使用相媲美。我们进一步发现现代 GP 算法 GP-GOMEA 整体性能最佳。这些结果与我们提供的可读构造特征和 ML 行为的 2D 可视化示例相结合,使我们得出肯定的结论,即在显式搜索紧凑特征时,基于 GP 的特征构造仍然可以很好地工作,这对解释 ML 模型非常有帮助. 为五种 ML 算法进化特征,包括支持向量机和随机森林。我们在 21 个与分类和回归问题相关的数据集上的结果表明,仅构建两个紧凑的特征就足以与整个原始特征集的使用相媲美。我们进一步发现现代 GP 算法 GP-GOMEA 整体性能最佳。这些结果与我们提供的可读构造特征和 ML 行为的 2D 可视化示例相结合,使我们得出肯定的结论,即在显式搜索紧凑特征时,基于 GP 的特征构造仍然可以很好地工作,这对解释 ML 模型非常有帮助. 我们在 21 个与分类和回归问题相关的数据集上的结果表明,仅构建两个紧凑的特征就足以与整个原始特征集的使用相媲美。我们进一步发现现代 GP 算法 GP-GOMEA 整体性能最佳。这些结果与我们提供的可读构造特征和 ML 行为的 2D 可视化示例相结合,使我们得出肯定的结论,即在显式搜索紧凑特征时,基于 GP 的特征构造仍然可以很好地工作,这对解释 ML 模型非常有帮助. 我们在 21 个与分类和回归问题相关的数据集上的结果表明,仅构建两个紧凑的特征就足以与整个原始特征集的使用相媲美。我们进一步发现现代 GP 算法 GP-GOMEA 整体性能最佳。这些结果与我们提供的可读构造特征和 ML 行为的 2D 可视化示例相结合,使我们得出肯定的结论,即在显式搜索紧凑特征时,基于 GP 的特征构造仍然可以很好地工作,这对解释 ML 模型非常有帮助.
更新日期:2020-01-13
down
wechat
bug