当前位置:
X-MOL 学术
›
bioRxiv. Bioinform.
›
论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
Template-based prediction of protein structure with deep learning
bioRxiv - Bioinformatics Pub Date : 2020-06-02 , DOI: 10.1101/2020.06.02.129270 Haicang Zhang , Yufeng Shen
bioRxiv - Bioinformatics Pub Date : 2020-06-02 , DOI: 10.1101/2020.06.02.129270 Haicang Zhang , Yufeng Shen
Accurate prediction of protein structure is fundamentally important to understand biological function of proteins. Template-based modeling, including protein threading and homology modeling, is a popular method for protein tertiary structure prediction. However, accurate template-query alignment and template selection are still very challenging, especially for the proteins with only distant homologs available. We propose a new template-based modelling method called ThreaderAI to improve protein tertiary structure prediction. ThreaderAI formulates the task of aligning query sequence with template as the classical pixel classification problem in computer vision and naturally applies deep residual neural network in prediction. ThreaderAI first employs deep learning to predict residue-residue aligning probability matrix by integrating sequence profile, predicted sequential structural features, and predicted residue-residue contacts, and then builds template-query alignment by applying a dynamic programming algorithm on the probability matrix. We evaluated our methods both in generating accurate template-query alignment and protein threading. Experimental results show that ThreaderAI outperforms currently popular template-based modelling methods HHpred, CNFpred, and the latest contact-assisted method CEthreader, especially on the proteins that do not have close homologs with known structures. In particular, in terms of alignment accuracy measured with TM-score, ThreaderAI outperforms HHpred, CNFpred, and CEthreader by 56%, 13%, and 11%, respectively, on template-query pairs at the similarity of fold level from SCOPe data. And on CASP13's TBM-hard data, ThreaderAI outperforms HHpred, CNFpred, and CEthreader by 16%, 9% and 8% in terms of TM-score, respectively. These results demonstrate that with the help of deep learning, ThreaderAI can significantly improve the accuracy of template-based structure prediction, especially for distant-homology proteins.
中文翻译:
深度学习基于模板的蛋白质结构预测
准确预测蛋白质结构对于了解蛋白质的生物学功能至关重要。基于模板的建模,包括蛋白质穿线和同源性建模,是蛋白质三级结构预测的一种流行方法。然而,准确的模板查询比对和模板选择仍然非常具有挑战性,特别是对于仅具有遥远同源物的蛋白质。我们提出了一种新的基于模板的建模方法,称为ThreaderAI,以改善蛋白质三级结构的预测。ThreaderAI将查询序列与模板对齐的任务作为计算机视觉中的经典像素分类问题进行了阐述,并自然将深层残差神经网络应用于预测。ThreaderAI首先利用深度学习通过整合序列图谱来预测残基-残基比对概率矩阵,预测顺序结构特征和预测残基-残基接触,然后通过在概率矩阵上应用动态编程算法来构建模板查询比对。我们评估了我们产生精确模板查询比对和蛋白质穿线的方法。实验结果表明,ThreaderAI优于目前流行的基于模板的建模方法HHpred,CNFpred和最新的接触辅助方法CEthreader,特别是在蛋白质与已知结构的同源性不高的蛋白质上。特别是,就使用TM分数测得的对齐精度而言,ThreaderAI在模板查询对上的表现优于SCOPe数据,其HHpred,CNFpred和CEthreader分别比模板查询对高56%,13%和11%。在CASP13的TBM硬数据上,ThreaderAI的表现优于HHpred,CNFpred,和TM得分方面,CEthreader分别提高了16%,9%和8%。这些结果表明,在深度学习的帮助下,ThreaderAI可以显着提高基于模板的结构预测的准确性,尤其是对于远程同源蛋白质。
更新日期:2020-06-02
中文翻译:
深度学习基于模板的蛋白质结构预测
准确预测蛋白质结构对于了解蛋白质的生物学功能至关重要。基于模板的建模,包括蛋白质穿线和同源性建模,是蛋白质三级结构预测的一种流行方法。然而,准确的模板查询比对和模板选择仍然非常具有挑战性,特别是对于仅具有遥远同源物的蛋白质。我们提出了一种新的基于模板的建模方法,称为ThreaderAI,以改善蛋白质三级结构的预测。ThreaderAI将查询序列与模板对齐的任务作为计算机视觉中的经典像素分类问题进行了阐述,并自然将深层残差神经网络应用于预测。ThreaderAI首先利用深度学习通过整合序列图谱来预测残基-残基比对概率矩阵,预测顺序结构特征和预测残基-残基接触,然后通过在概率矩阵上应用动态编程算法来构建模板查询比对。我们评估了我们产生精确模板查询比对和蛋白质穿线的方法。实验结果表明,ThreaderAI优于目前流行的基于模板的建模方法HHpred,CNFpred和最新的接触辅助方法CEthreader,特别是在蛋白质与已知结构的同源性不高的蛋白质上。特别是,就使用TM分数测得的对齐精度而言,ThreaderAI在模板查询对上的表现优于SCOPe数据,其HHpred,CNFpred和CEthreader分别比模板查询对高56%,13%和11%。在CASP13的TBM硬数据上,ThreaderAI的表现优于HHpred,CNFpred,和TM得分方面,CEthreader分别提高了16%,9%和8%。这些结果表明,在深度学习的帮助下,ThreaderAI可以显着提高基于模板的结构预测的准确性,尤其是对于远程同源蛋白质。