当前位置: X-MOL 学术IEEE/ACM Trans. Comput. Biol. Bioinform. › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
SSKM_Succ: A Novel Succinylation Sites Prediction Method Incorporating K-Means Clustering With a New Semi-Supervised Learning Algorithm
IEEE/ACM Transactions on Computational Biology and Bioinformatics ( IF 3.6 ) Pub Date : 2020-06-30 , DOI: 10.1109/tcbb.2020.3006144
Qiao Ning 1, 2 , Zhiqiang Ma 1 , Xiaowei Zhao 1 , Minghao Yin 1
Affiliation  

Protein succinylation is a type of post-translational modification (PTM) that occurs on lysine sites and plays a key role in protein conformation regulation and cellular function control. When training in computational method, it is difficult to designate negative samples because of the uncertainty of non-succinylation lysine sites, and if not handled properly, it may affect the performance of computational models dramatically. Therefore, we propose a new semi-supervised learning method to identify reliable non-succinylation lysine sites as negative samples. This method, named SSKM_Succ, also employs K-means clustering to divide data into 5 clusters. Besides, information of proximal PTMs and three kinds of sequence features (grey pseudo amino acid composition, K-space and position-special amino acid propensity) are utilized to formulate protein. Then, we perform a two-step feature selection to remove redundant features and construct the optimization model for each cluster. Finally, support vector machine is applied to construct a prediction model for each cluster. Promising results are obtained by this method with an accuracy of 80.18 percent for succinylation sites on the independent testing dataset. Meanwhile, we compare the result with other existing tools, and it shows that our method is promising for predicting succinylation sites. Through analysis, we further verify that succinylated protein has potential effects on amino acid degradation and fatty acid metabolism, and speculate that protein succinylation may be closely related to neurodegenerative diseases. The code of SSKM_Succ is available on the web https://github.com/yangyq505/SSKM_Succ.git .

中文翻译:

SSKM_Succ:一种新的琥珀酰化位点预测方法,将 K-Means 聚类与新的半监督学习算法相结合

蛋白质琥珀酰化是一种发生在赖氨酸位点的翻译后修饰(PTM),在蛋白质构象调节和细胞功能控制中起关键作用。在计算方法训练时,由于非琥珀酰化赖氨酸位点的不确定性,很难指定负样本,如果处理不当,可能会极大地影响计算模型的性能。因此,我们提出了一种新的半监督学习方法来识别可靠的非琥珀酰化赖氨酸位点作为负样本。这种名为 SSKM_Succ 的方法也采用 K-means 聚类将数据划分为 5 个聚类。此外,利用近端 PTM 信息和三种序列特征(灰色假氨基酸组成、K 空间和位置特殊氨基酸倾向)来构建蛋白质。然后,我们执行两步特征选择以去除冗余特征并为每个集群构建优化模型。最后,应用支持向量机为每个集群构建预测模型。通过这种方法获得了有希望的结果,对于独立测试数据集上的琥珀酰化位点,准确率为 80.18%。同时,我们将结果与其他现有工具进行了比较,表明我们的方法在预测琥珀酰化位点方面很有前景。通过分析,我们进一步验证了琥珀酰化蛋白对氨基酸降解和脂肪酸代谢的潜在影响,推测蛋白琥珀酰化可能与神经退行性疾病密切相关。SSKM_Succ 的代码可在网上获得 我们执行两步特征选择以去除冗余特征并为每个集群构建优化模型。最后,应用支持向量机为每个集群构建预测模型。通过这种方法获得了有希望的结果,对于独立测试数据集上的琥珀酰化位点,准确率为 80.18%。同时,我们将结果与其他现有工具进行了比较,表明我们的方法在预测琥珀酰化位点方面很有前景。通过分析,我们进一步验证了琥珀酰化蛋白对氨基酸降解和脂肪酸代谢的潜在影响,推测蛋白琥珀酰化可能与神经退行性疾病密切相关。SSKM_Succ 的代码可在网上获得 我们执行两步特征选择以去除冗余特征并为每个集群构建优化模型。最后,应用支持向量机为每个集群构建预测模型。通过这种方法获得了有希望的结果,对于独立测试数据集上的琥珀酰化位点,准确率为 80.18%。同时,我们将结果与其他现有工具进行了比较,表明我们的方法在预测琥珀酰化位点方面很有前景。通过分析,我们进一步验证了琥珀酰化蛋白对氨基酸降解和脂肪酸代谢的潜在影响,推测蛋白琥珀酰化可能与神经退行性疾病密切相关。SSKM_Succ 的代码可在网上获得 应用支持向量机为每个集群构建预测模型。通过这种方法获得了有希望的结果,对于独立测试数据集上的琥珀酰化位点,准确率为 80.18%。同时,我们将结果与其他现有工具进行了比较,表明我们的方法在预测琥珀酰化位点方面很有前景。通过分析,我们进一步验证了琥珀酰化蛋白对氨基酸降解和脂肪酸代谢的潜在影响,推测蛋白琥珀酰化可能与神经退行性疾病密切相关。SSKM_Succ 的代码可在网上获得 应用支持向量机为每个集群构建预测模型。通过这种方法获得了有希望的结果,对于独立测试数据集上的琥珀酰化位点,准确率为 80.18%。同时,我们将结果与其他现有工具进行了比较,表明我们的方法在预测琥珀酰化位点方面很有前景。通过分析,我们进一步验证了琥珀酰化蛋白对氨基酸降解和脂肪酸代谢的潜在影响,推测蛋白琥珀酰化可能与神经退行性疾病密切相关。SSKM_Succ 的代码可在网上获得 我们将结果与其他现有工具进行比较,结果表明我们的方法有望用于预测琥珀酰化位点。通过分析,我们进一步验证了琥珀酰化蛋白对氨基酸降解和脂肪酸代谢的潜在影响,推测蛋白琥珀酰化可能与神经退行性疾病密切相关。SSKM_Succ 的代码可在网上获得 我们将结果与其他现有工具进行比较,结果表明我们的方法有望用于预测琥珀酰化位点。通过分析,我们进一步验证了琥珀酰化蛋白对氨基酸降解和脂肪酸代谢的潜在影响,推测蛋白琥珀酰化可能与神经退行性疾病密切相关。SSKM_Succ 的代码可在网上获得https://github.com/yangyq505/SSKM_Succ.git .
更新日期:2020-06-30
down
wechat
bug