当前位置: X-MOL 学术Brief. Bioinform. › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
STALLION: a stacking-based ensemble learning framework for prokaryotic lysine acetylation site prediction
Briefings in Bioinformatics ( IF 9.5 ) Pub Date : 2021-09-08 , DOI: 10.1093/bib/bbab376
Shaherin Basith 1 , Gwang Lee 2 , Balachandran Manavalan 1
Affiliation  

Protein post-translational modification (PTM) is an important regulatory mechanism that plays a key role in both normal and disease states. Acetylation on lysine residues is one of the most potent PTMs owing to its critical role in cellular metabolism and regulatory processes. Identifying protein lysine acetylation (Kace) sites is a challenging task in bioinformatics. To date, several machine learning-based methods for the in silico identification of Kace sites have been developed. Of those, a few are prokaryotic species-specific. Despite their attractive advantages and performances, these methods have certain limitations. Therefore, this study proposes a novel predictor STALLION (STacking-based Predictor for ProkAryotic Lysine AcetyLatION), containing six prokaryotic species-specific models to identify Kace sites accurately. To extract crucial patterns around Kace sites, we employed 11 different encodings representing three different characteristics. Subsequently, a systematic and rigorous feature selection approach was employed to identify the optimal feature set independently for five tree-based ensemble algorithms and built their respective baseline model for each species. Finally, the predicted values from baseline models were utilized and trained with an appropriate classifier using the stacking strategy to develop STALLION. Comparative benchmarking experiments showed that STALLION significantly outperformed existing predictor on independent tests. To expedite direct accessibility to the STALLION models, a user-friendly online predictor was implemented, which is available at: http://thegleelab.org/STALLION.

中文翻译:

STALLION:用于原核赖氨酸乙酰化位点预测的基于堆叠的集成学习框架

蛋白质翻译后修饰 (PTM) 是一种重要的调节机制,在正常和疾病状态中都起着关键作用。赖氨酸残基上的乙酰化是最有效的 PTM 之一,因为它在细胞代谢和调节过程中起关键作用。识别蛋白质赖氨酸乙酰化 (Kace) 位点是生物信息学中的一项具有挑战性的任务。迄今为止,已经开发了几种基于机器学习的 Kace 位点计算机识别方法。其中,少数是原核物种特异性的。尽管它们具有吸引人的优势和性能,但这些方法具有一定的局限性。因此,本研究提出了一种新的预测因子 STALLION(基于堆叠的 ProkAryotic Lysine AcetyLatION 预测因子),其中包含六种原核物种特异性模型,可准确识别 Kace 位点。为了提取 Kace 站点周围的关键模式,我们使用了 11 种不同的编码来代表三种不同的特征。随后,采用系统和严格的特征选择方法来独立识别五种基于树的集成算法的最佳特征集,并为每个物种建立各自的基线模型。最后,使用来自基线模型的预测值并使用适当的分类器使用堆叠策略进行训练以开发 STALLION。比较基准测试表明,STALLION 在独立测试中显着优于现有预测器。为了加快对 STALLION 模型的直接访问,实施了一个用户友好的在线预测器,可在以下网址获得:http://thegleelab.org/STALLION。我们采用了 11 种不同的编码来代表三种不同的特征。随后,采用系统和严格的特征选择方法来独立识别五种基于树的集成算法的最佳特征集,并为每个物种建立各自的基线模型。最后,使用来自基线模型的预测值并使用适当的分类器使用堆叠策略进行训练以开发 STALLION。比较基准测试表明,STALLION 在独立测试中显着优于现有预测器。为了加快对 STALLION 模型的直接访问,实施了一个用户友好的在线预测器,可在以下网址获得:http://thegleelab.org/STALLION。我们采用了 11 种不同的编码来代表三种不同的特征。随后,采用系统和严格的特征选择方法来独立识别五种基于树的集成算法的最佳特征集,并为每个物种建立各自的基线模型。最后,使用来自基线模型的预测值并使用适当的分类器使用堆叠策略进行训练以开发 STALLION。比较基准测试表明,STALLION 在独立测试中显着优于现有预测器。为了加快对 STALLION 模型的直接访问,实施了一个用户友好的在线预测器,可在以下网址获得:http://thegleelab.org/STALLION。采用系统和严格的特征选择方法来独立识别五种基于树的集成算法的最佳特征集,并为每个物种建立各自的基线模型。最后,使用来自基线模型的预测值并使用适当的分类器使用堆叠策略进行训练以开发 STALLION。比较基准测试表明,STALLION 在独立测试中显着优于现有预测器。为了加快对 STALLION 模型的直接访问,实施了一个用户友好的在线预测器,可在以下网址获得:http://thegleelab.org/STALLION。采用系统和严格的特征选择方法来独立识别五种基于树的集成算法的最佳特征集,并为每个物种建立各自的基线模型。最后,使用来自基线模型的预测值并使用适当的分类器使用堆叠策略进行训练以开发 STALLION。比较基准测试表明,STALLION 在独立测试中显着优于现有预测器。为了加快对 STALLION 模型的直接访问,实施了一个用户友好的在线预测器,可在以下网址获得:http://thegleelab.org/STALLION。使用来自基线模型的预测值并使用适当的分类器使用堆叠策略进行训练以开发 STALLION。比较基准测试表明,STALLION 在独立测试中显着优于现有预测器。为了加快对 STALLION 模型的直接访问,实施了一个用户友好的在线预测器,可在以下网址获得:http://thegleelab.org/STALLION。使用来自基线模型的预测值并使用适当的分类器使用堆叠策略进行训练以开发 STALLION。比较基准测试表明,STALLION 在独立测试中显着优于现有预测器。为了加快对 STALLION 模型的直接访问,实施了一个用户友好的在线预测器,可在以下网址获得:http://thegleelab.org/STALLION。
更新日期:2021-09-08
down
wechat
bug