当前位置: X-MOL 学术IEEE/ACM Trans. Comput. Biol. Bioinform. › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
A Novel Feature Selection Method for Uncertain Features: An Application to the Prediction of Pro-/Anti-Longevity Genes
IEEE/ACM Transactions on Computational Biology and Bioinformatics ( IF 3.6 ) Pub Date : 2020-04-20 , DOI: 10.1109/tcbb.2020.2988450
Pablo Nascimento Da Silva , Alexandre Plastino , Fabio Fabris , Alex A. Freitas

Understanding the ageing process is a very challenging problem for biologists. To help in this task, there has been a growing use of classification methods (from machine learning) to learn models that predict whether a gene influences the process of ageing or promotes longevity. One type of predictive feature often used for learning such classification models is Protein-Protein Interaction (PPI) features. One important property of PPI features is their uncertainty, i.e., a given feature (PPI annotation) is often associated with a confidence score, which is usually ignored by conventional classification methods. Hence, we propose the Lazy Feature Selection for Uncertain Features (LFSUF) method, which is tailored for coping with the uncertainty in PPI confidence scores. In addition, following the lazy learning paradigm, LFSUF selects features for each instance to be classified, making the feature selection process more flexible. We show that our LFSUF method achieves better predictive accuracy when compared to other feature selection methods that either do not explicitly take PPI confidence scores into account or deal with uncertainty globally rather than using a per-instance approach. Also, we interpret the results of the classification process using the features selected by LFSUF, showing that the number of selected features is significantly reduced, assisting the interpretability of the results. The datasets used in the experiments and the program code of the LFSUF method are freely available on the web at http://github.com/pablonsilva/FSforUncertainFeatureSpaces .

中文翻译:

一种新的不确定特征的特征选择方法:在预测长寿/长寿基因中的应用

了解衰老过程对生物学家来说是一个非常具有挑战性的问题。为了帮助完成这项任务,越来越多地使用分类方法(来自机器学习)来学习预测基因是否会影响衰老过程或促进长寿的模型。一种经常用于学习此类分类模型的预测特征是蛋白质-蛋白质相互作用 (PPI) 特征。PPI 特征的一个重要特性是它们的不确定性,即给定特征(PPI 注释)通常与置信度分数相关联,而传统的分类方法通常会忽略它。因此,我们提出了针对不确定特征的惰性特征选择 (LFSUF) 方法,该方法专为应对 PPI 置信度分数的不确定性而量身定制。此外,遵循懒惰的学习范式,LFSUF 为每个要分类的实例选择特征,使特征选择过程更加灵活。我们表明,与其他特征选择方法相比,我们的 LFSUF 方法实现了更好的预测准确性,这些方法要么没有明确考虑 PPI 置信度得分,要么在全局范围内处理不确定性,而不是使用逐实例方法。此外,我们使用 LFSUF 选择的特征来解释分类过程的结果,表明选择的特征数量显着减少,有助于结果的可解释性。实验中使用的数据集和 LFSUF 方法的程序代码可在网络上免费获得,网址为 我们表明,与其他特征选择方法相比,我们的 LFSUF 方法实现了更好的预测准确性,这些方法要么没有明确考虑 PPI 置信度得分,要么在全局范围内处理不确定性,而不是使用逐实例方法。此外,我们使用 LFSUF 选择的特征来解释分类过程的结果,表明选择的特征数量显着减少,有助于结果的可解释性。实验中使用的数据集和 LFSUF 方法的程序代码可在网络上免费获得,网址为 我们表明,与其他特征选择方法相比,我们的 LFSUF 方法实现了更好的预测准确性,这些方法要么没有明确考虑 PPI 置信度得分,要么在全局范围内处理不确定性,而不是使用逐实例方法。此外,我们使用 LFSUF 选择的特征来解释分类过程的结果,表明选择的特征数量显着减少,有助于结果的可解释性。实验中使用的数据集和 LFSUF 方法的程序代码可在网络上免费获得,网址为 我们使用 LFSUF 选择的特征来解释分类过程的结果,表明选择的特征数量显着减少,有助于结果的可解释性。实验中使用的数据集和 LFSUF 方法的程序代码可在网络上免费获得,网址为 我们使用 LFSUF 选择的特征来解释分类过程的结果,表明选择的特征数量显着减少,有助于结果的可解释性。实验中使用的数据集和 LFSUF 方法的程序代码可在网络上免费获得,网址为http://github.com/pablonsilva/FSforUncertainFeatureSpaces .
更新日期:2020-04-20
down
wechat
bug