当前位置: X-MOL 学术J. Bioinform. Comput. Biol. › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
DBP-GAPred: An intelligent method for prediction of DNA-binding proteins types by enhanced evolutionary profile features with ensemble learning
Journal of Bioinformatics and Computational Biology ( IF 0.9 ) Pub Date : 2021-07-21 , DOI: 10.1142/s0219720021500189
Omar Barukab 1 , Farman Ali 2 , Sher Afzal Khan 3
Affiliation  

DNA-binding proteins (DBPs) perform an influential role in diverse biological activities like DNA replication, slicing, repair, and transcription. Some DBPs are indispensable for understanding many types of human cancers (i.e. lung, breast, and liver cancer) and chronic diseases (i.e. AIDS/HIV, asthma), while other kinds are involved in antibiotics, steroids, and anti-inflammatory drugs designing. These crucial processes are closely related to DBPs types. DBPs are categorized into single-stranded DNA-binding proteins (ssDBPs) and double-stranded DNA-binding proteins (dsDBPs). Few computational predictors have been reported for discriminating ssDBPs and dsDBPs. However, due to the limitations of the existing methods, an intelligent computational system is still highly desirable. In this work, features from protein sequences are discovered by extending the notion of dipeptide composition (DPC), evolutionary difference formula (EDF), and K-separated bigram (KSB) into the position-specific scoring matrix (PSSM). The highly intrinsic information was encoded by a compression approach named discrete cosine transform (DCT) and the model was trained with support vector machine (SVM). The prediction performance was further boosted by the genetic algorithm (GA) ensemble strategy. The novel predictor (DBP-GAPred) acquired 1.89%, 0.28%, and 6.63% higher accuracies on jackknife, 10-fold, and independent dataset tests, respectively than the best predictor. These outcomes confirm the superiority of our method over the existing predictors.

中文翻译:

DBP-GAPred:一种通过集成学习增强进化特征来预测 DNA 结合蛋白类型的智能方法

DNA 结合蛋白 (DBP) 在 DNA 复制、切片、修复和转录等多种生物活动中发挥着重要作用。一些 DBP 对于了解许多类型的人类癌症(即肺癌、乳腺癌和肝癌)和慢性疾病(即 AIDS/HIV、哮喘)是必不可少的,而另一些则涉及抗生素、类固醇和抗炎药的设计。这些关键过程与 DBP 类型密切相关。DBP 分为单链 DNA 结合蛋白 (ssDBP) 和双链 DNA 结合蛋白 (dsDBP)。很少有计算预测器用于区分 ssDBP 和 dsDBP。然而,由于现有方法的局限性,仍然非常需要智能计算系统。在这项工作中,通过将二肽组成 (DPC)、进化差异公式 (EDF) 和 K 分离双元组 (KSB) 的概念扩展到特定位置评分矩阵 (PSSM),发现了蛋白质序列的特征。高度内在的信息通过称为离散余弦变换 (DCT) 的压缩方法进行编码,并使用支持向量机 (SVM) 训练模型。遗传算法(GA)集成策略进一步提高了预测性能。与最佳预测器相比,新型预测器 (DBP-GAPred) 在折刀、10 倍和独立数据集测试上的准确度分别提高了 1.89%、0.28% 和 6.63%。这些结果证实了我们的方法优于现有预测因子。和 K 分离二元组 (KSB) 到特定位置评分矩阵 (PSSM) 中。高度内在的信息通过称为离散余弦变换 (DCT) 的压缩方法进行编码,并使用支持向量机 (SVM) 训练模型。遗传算法(GA)集成策略进一步提高了预测性能。与最佳预测器相比,新型预测器 (DBP-GAPred) 在折刀、10 倍和独立数据集测试上的准确度分别提高了 1.89%、0.28% 和 6.63%。这些结果证实了我们的方法优于现有预测因子。和 K 分离二元组 (KSB) 到特定位置评分矩阵 (PSSM) 中。高度内在的信息通过称为离散余弦变换 (DCT) 的压缩方法进行编码,并使用支持向量机 (SVM) 训练模型。遗传算法(GA)集成策略进一步提高了预测性能。与最佳预测器相比,新型预测器 (DBP-GAPred) 在折刀、10 倍和独立数据集测试上的准确度分别提高了 1.89%、0.28% 和 6.63%。这些结果证实了我们的方法优于现有预测因子。遗传算法(GA)集成策略进一步提高了预测性能。与最佳预测器相比,新型预测器 (DBP-GAPred) 在折刀、10 倍和独立数据集测试上的准确度分别提高了 1.89%、0.28% 和 6.63%。这些结果证实了我们的方法优于现有预测因子。遗传算法(GA)集成策略进一步提高了预测性能。与最佳预测器相比,新型预测器 (DBP-GAPred) 在折刀、10 倍和独立数据集测试上的准确度分别提高了 1.89%、0.28% 和 6.63%。这些结果证实了我们的方法优于现有预测因子。
更新日期:2021-07-21
down
wechat
bug