当前位置: X-MOL 学术Interdiscip. Sci. Comput. Life Sci. › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
Impact of Gene Biomarker Discovery Tools Based on Protein-Protein Interaction and Machine Learning on Performance of Artificial Intelligence Models in Predicting Clinical Stages of Breast Cancer.
Interdisciplinary Sciences: Computational Life Sciences ( IF 4.8 ) Pub Date : 2020-09-10 , DOI: 10.1007/s12539-020-00390-8
Elham Amjad 1 , Solmaz Asnaashari 1 , Babak Sokouti 1 , Siavoush Dastmalchi 1, 2
Affiliation  

Breast cancer, as one of the most common diseases threatening the women's life, has attracted serious attention of the clinical and biomedical researchers worldwide. The genome-based studies along with their registered GEO datasets are frequent in the literature. Since several methodologies have been developed for analyzing and identifying gene biomarkers, it is necessary to evaluate their robustness. In this study, three well-known biomarker identification methods (i.e., ClusterOne, MCODE, and BioDiscML) were employed in order to identify the potential biomarkers. Then, the methods were ranked and evaluated using nonlinear classification models developed based on the identified sets of biomarkers. A combined BC microarray dataset consisting of GSE124647, GSE124646, and GSE15852 was used as training set, and two test datasets, GSE15852 and GSE25066, were used for the performance measurement of the trained models. The validation of the proposed models was carried out internally (leave-one-out, fivefold and tenfold cross-validation, random sampling, test on training set) and externally (test on test set). The results showed that ClusterOne, MCODE, and BioDiscML tools ranked first, second, and third, respectively, based on the area under the curve (AUC), accuracy, F1 score, precision, and recall metrics. Overall, it can be concluded that the descriptive values of gene biomarkers in terms of their biological aspects that have been determined by a given methodology and the predictive power of the models developed based on the identified gene biomarkers should be considered simultaneously while validating the biomarker identification approaches.



中文翻译:

基于蛋白质-蛋白质相互作用和机器学习的基因生物标志物发现工具对人工智能模型在预测乳腺癌临床分期方面的性能的影响。

乳腺癌作为威胁女性生命的最常见疾病之一,引起了全球临床和生物医学研究人员的高度关注。基于基因组的研究及其注册的 GEO 数据集在文献中很常见。由于已经开发了多种方法来分析和识别基因生物标志物,因此有必要评估它们的稳健性。在本研究中,采用了三种众所周知的生物标志物识别方法(即 ClusterOne、MCODE 和 BioDiscML)来识别潜在的生物标志物。然后,使用基于已识别的生物标志物集开发的非线性分类模型对这些方法进行排序和评估。由 GSE124647、GSE124646 和 GSE15852 组成的组合 BC 微阵列数据集用作训练集,以及两个测试数据集,GSE15852 和 GSE25066 用于训练模型的性能测量。所提出模型的验证在内部(留一法、五倍和十倍交叉验证、随机抽样、训练集测试)和外部(测试集测试)进行。结果显示,ClusterOne、MCODE 和 BioDiscML 工具分别根据曲线下面积 (AUC)、准确率、F1 分数、准确率和召回率指标排名第一、第二和第三。总体而言,可以得出结论,在验证生物标志物鉴定的同时,应同时考虑基因生物标志物在其生物学方面的描述值,这些描述值已由给定方法确定,以及基于已鉴定基因生物标志物开发的模型的预测能力方法。用于训练模型的性能测量。所提出模型的验证在内部(留一法、五倍和十倍交叉验证、随机抽样、训练集测试)和外部(测试集测试)进行。结果显示,ClusterOne、MCODE 和 BioDiscML 工具分别根据曲线下面积 (AUC)、准确率、F1 分数、准确率和召回率指标排名第一、第二和第三。总体而言,可以得出结论,在验证生物标志物鉴定的同时,应同时考虑基因生物标志物在其生物学方面的描述值,这些描述值已由给定方法确定,以及基于已鉴定基因生物标志物开发的模型的预测能力方法。用于训练模型的性能测量。所提出模型的验证在内部(留一法、五倍和十倍交叉验证、随机抽样、训练集测试)和外部(测试集测试)进行。结果显示,ClusterOne、MCODE 和 BioDiscML 工具分别根据曲线下面积 (AUC)、准确率、F1 分数、准确率和召回率指标排名第一、第二和第三。总体而言,可以得出结论,在验证生物标志物鉴定的同时,应同时考虑基因生物标志物在其生物学方面的描述值,这些描述值已由给定方法确定,以及基于已鉴定基因生物标志物开发的模型的预测能力方法。所提出模型的验证在内部(留一法、五倍和十倍交叉验证、随机抽样、训练集测试)和外部(测试集测试)进行。结果显示,ClusterOne、MCODE 和 BioDiscML 工具分别根据曲线下面积 (AUC)、准确率、F1 分数、准确率和召回率指标排名第一、第二和第三。总体而言,可以得出结论,在验证生物标志物鉴定的同时,应同时考虑基因生物标志物在其生物学方面的描述值,这些描述值已由给定方法确定,以及基于已鉴定基因生物标志物开发的模型的预测能力方法。所提出模型的验证在内部(留一法、五倍和十倍交叉验证、随机抽样、训练集测试)和外部(测试集测试)进行。结果显示,ClusterOne、MCODE 和 BioDiscML 工具根据曲线下面积 (AUC)、准确率、F1 分数、准确率和召回率指标分别排名第一、第二和第三。总体而言,可以得出结论,在验证生物标志物鉴定的同时,应同时考虑基因生物标志物在其生物学方面的描述值,这些描述值已由给定方法确定,以及基于已鉴定基因生物标志物开发的模型的预测能力方法。随机抽样、训练集测试)和外部(测试集测试)。结果显示,ClusterOne、MCODE 和 BioDiscML 工具分别根据曲线下面积 (AUC)、准确率、F1 分数、准确率和召回率指标排名第一、第二和第三。总体而言,可以得出结论,在验证生物标志物鉴定的同时,应同时考虑基因生物标志物在其生物学方面的描述值,这些描述值已由给定方法确定,以及基于已鉴定基因生物标志物开发的模型的预测能力方法。随机抽样,训练集测试)和外部(测试集测试)。结果显示,ClusterOne、MCODE 和 BioDiscML 工具分别根据曲线下面积 (AUC)、准确率、F1 分数、准确率和召回率指标排名第一、第二和第三。总体而言,可以得出结论,在验证生物标志物鉴定的同时,应同时考虑基因生物标志物在其生物学方面的描述值,这些描述值已由给定方法确定,以及基于已鉴定基因生物标志物开发的模型的预测能力方法。准确率和召回率指标。总体而言,可以得出结论,在验证生物标志物鉴定的同时,应同时考虑基因生物标志物在其生物学方面的描述值,这些描述值已由给定方法确定,以及基于已鉴定基因生物标志物开发的模型的预测能力方法。准确率和召回率指标。总体而言,可以得出结论,在验证生物标志物鉴定的同时,应同时考虑基因生物标志物在其生物学方面的描述值,这些描述值已由给定方法确定,以及基于已鉴定基因生物标志物开发的模型的预测能力方法。

更新日期:2020-09-11
down
wechat
bug