当前位置: X-MOL 学术J. Mol. Graph. Model. › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
Prediction of protein ubiquitination sites via multi-view features based on eXtreme gradient boosting classifier
Journal of Molecular Graphics and Modelling ( IF 2.7 ) Pub Date : 2021-06-15 , DOI: 10.1016/j.jmgm.2021.107962
Yushuang Liu 1 , Shuping Jin 1 , Lili Song 1 , Yu Han 1 , Bin Yu 2
Affiliation  

Ubiquitination is a common and reversible post-translational protein modification that regulates apoptosis and plays an important role in protein degradation and cell diseases. However, experimental identification of protein ubiquitination sites is usually time-consuming and labor-intensive, so it is necessary to establish effective predictors. In this study, we propose a ubiquitination sites prediction method based on multi-view features, namely UbiSite-XGBoost. Firstly, we use seven single-view features encoding methods to convert protein sequence fragments into digital information. Secondly, the least absolute shrinkage and selection operator (LASSO) is applied to remove the redundant information and get the optimal feature subsets. Finally, these features are inputted into the eXtreme gradient boosting (XGBoost) classifier to predict ubiquitination sites. Five-fold cross-validation shows that the AUC values of Set1-Set6 datasets are 0.8258, 0.7592, 0.7853, 0.8345, 0.8979 and 0.8901, respectively. The synthetic minority oversampling technique (SMOTE) is employed in Set4-Set6 unbalanced datasets, and the AUC values are 0.9777, 0.9782 and 0.9860, respectively. In addition, we have constructed three independent test datasets which the AUC values are 0.8007, 0.6897 and 0.7280, respectively. The results show that the proposed method UbiSite-XGBoost is superior to other ubiquitination prediction methods and it provides new guidance for the identification of ubiquitination sites. The source code and all datasets are available at https://github.com/QUST-AIBBDRC/UbiSite-XGBoost/.



中文翻译:

基于eXtreme梯度提升分类器的多视角特征预测蛋白质泛素化位点

泛素化是一种常见且可逆的蛋白质翻译后修饰,可调节细胞凋亡并在蛋白质降解和细胞疾病中起重要作用。然而,蛋白质泛素化位点的实验鉴定通常费时费力,因此需要建立有效的预测因子。在本研究中,我们提出了一种基于多视图特征的泛素化位点预测方法,即 UbiSite-XGBoost。首先,我们使用七种单视图特征编码方法将蛋白质序列片段转换为数字信息。其次,应用最小绝对收缩和选择算子(LASSO)去除冗余信息,得到最优特征子集。最后,这些特征被输入到极限梯度提升 (XGBoost) 分类器中以预测泛素化位点。五重交叉验证表明,Set1-Set6数据集的AUC值分别为0.8258、0.7592、0.7853、0.8345、0.8979和0.8901。Set4-Set6不平衡数据集采用合成少数过采样技术(SMOTE),AUC值分别为0.9777、0.9782和0.9860。此外,我们构建了三个独立的测试数据集,AUC 值分别为 0.8007、0.6897 和 0.7280。结果表明,所提出的方法UbiSite-XGBoost优于其他泛素化预测方法,为泛素化位点的识别提供了新的指导。源代码和所有数据集可在 https://github.com/QUST-AIBBDRC/UbiSite-XGBoost/ 获得。五重交叉验证表明,Set1-Set6数据集的AUC值分别为0.8258、0.7592、0.7853、0.8345、0.8979和0.8901。Set4-Set6不平衡数据集采用合成少数过采样技术(SMOTE),AUC值分别为0.9777、0.9782和0.9860。此外,我们构建了三个独立的测试数据集,AUC 值分别为 0.8007、0.6897 和 0.7280。结果表明,所提出的方法UbiSite-XGBoost优于其他泛素化预测方法,为泛素化位点的识别提供了新的指导。源代码和所有数据集可在 https://github.com/QUST-AIBBDRC/UbiSite-XGBoost/ 获得。五重交叉验证表明,Set1-Set6数据集的AUC值分别为0.8258、0.7592、0.7853、0.8345、0.8979和0.8901。Set4-Set6不平衡数据集采用合成少数过采样技术(SMOTE),AUC值分别为0.9777、0.9782和0.9860。此外,我们构建了三个独立的测试数据集,AUC 值分别为 0.8007、0.6897 和 0.7280。结果表明,所提出的方法UbiSite-XGBoost优于其他泛素化预测方法,为泛素化位点的识别提供了新的指导。源代码和所有数据集可在 https://github.com/QUST-AIBBDRC/UbiSite-XGBoost/ 获得。分别。Set4-Set6不平衡数据集采用合成少数过采样技术(SMOTE),AUC值分别为0.9777、0.9782和0.9860。此外,我们构建了三个独立的测试数据集,AUC 值分别为 0.8007、0.6897 和 0.7280。结果表明,所提出的方法UbiSite-XGBoost优于其他泛素化预测方法,为泛素化位点的识别提供了新的指导。源代码和所有数据集可在 https://github.com/QUST-AIBBDRC/UbiSite-XGBoost/ 获得。分别。Set4-Set6不平衡数据集采用合成少数过采样技术(SMOTE),AUC值分别为0.9777、0.9782和0.9860。此外,我们构建了三个独立的测试数据集,AUC 值分别为 0.8007、0.6897 和 0.7280。结果表明,所提出的方法UbiSite-XGBoost优于其他泛素化预测方法,为泛素化位点的识别提供了新的指导。源代码和所有数据集可在 https://github.com/QUST-AIBBDRC/UbiSite-XGBoost/ 获得。我们构建了三个独立的测试数据集,AUC 值分别为 0.8007、0.6897 和 0.7280。结果表明,所提出的方法UbiSite-XGBoost优于其他泛素化预测方法,为泛素化位点的识别提供了新的指导。源代码和所有数据集可在 https://github.com/QUST-AIBBDRC/UbiSite-XGBoost/ 获得。我们构建了三个独立的测试数据集,AUC 值分别为 0.8007、0.6897 和 0.7280。结果表明,所提出的方法UbiSite-XGBoost优于其他泛素化预测方法,为泛素化位点的识别提供了新的指导。源代码和所有数据集可在 https://github.com/QUST-AIBBDRC/UbiSite-XGBoost/ 获得。

更新日期:2021-06-28
down
wechat
bug