当前位置:
X-MOL 学术
›
Brief. Bioinform.
›
论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
An in silico approach to identification, categorization and prediction of nucleic acid binding proteins.
Briefings in Bioinformatics ( IF 9.5 ) Pub Date : 2020-08-14 , DOI: 10.1093/bib/bbaa171 Lei Xu 1 , Shanshan Jiang 2 , Jin Wu 3 , Quan Zou 4
Briefings in Bioinformatics ( IF 9.5 ) Pub Date : 2020-08-14 , DOI: 10.1093/bib/bbaa171 Lei Xu 1 , Shanshan Jiang 2 , Jin Wu 3 , Quan Zou 4
Affiliation
The interaction between proteins and nucleic acid plays an important role in many processes, such as transcription, translation and DNA repair. The mechanisms of related biological events can be understood by exploring the function of proteins in these interactions. The number of known protein sequences has increased rapidly in recent years, but the databases for describing the structure and function of protein have unfortunately grown quite slowly. Thus, improving such databases is meaningful for predicting protein–nucleic acid interactions. Furthermore, the mechanism of related biological events, such as viral infection or designing novel drug targets, can be further understood by understanding the function of proteins in these interactions. The information for each sequence, including its function and interaction sites, were collected and identified, and a database called PNIDB was built. The proteins in PNIDB were grouped into 27 classes, such as transcription, immune system, and structural protein, etc. The function of each protein was then predicted using a machine learning method. Using our method, the predictor was trained on labeled sequences, and then the function of a protein was predicted based on the trained classifier. The prediction accuracy achieved a score of 77.43% by 10-fold cross validation.
中文翻译:
一种识别、分类和预测核酸结合蛋白的计算机方法。
蛋白质与核酸之间的相互作用在转录、翻译和DNA修复等许多过程中起着重要作用。通过探索蛋白质在这些相互作用中的功能,可以了解相关生物事件的机制。近年来,已知蛋白质序列的数量迅速增加,但不幸的是,描述蛋白质结构和功能的数据库增长缓慢。因此,改进此类数据库对于预测蛋白质-核酸相互作用是有意义的。此外,通过了解蛋白质在这些相互作用中的功能,可以进一步了解相关生物事件的机制,例如病毒感染或设计新的药物靶点。每个序列的信息,包括其功能和相互作用位点,被收集和识别,并建立了一个名为 PNIDB 的数据库。PNIDB 中的蛋白质分为转录、免疫系统和结构蛋白等 27 类,然后使用机器学习方法预测每种蛋白质的功能。使用我们的方法,在标记序列上训练预测器,然后基于训练的分类器预测蛋白质的功能。通过 10 倍交叉验证,预测准确率达到了 77.43%。然后基于训练好的分类器预测蛋白质的功能。通过 10 倍交叉验证,预测准确率达到了 77.43%。然后基于训练好的分类器预测蛋白质的功能。通过 10 倍交叉验证,预测准确率达到了 77.43%。
更新日期:2020-08-18
中文翻译:
一种识别、分类和预测核酸结合蛋白的计算机方法。
蛋白质与核酸之间的相互作用在转录、翻译和DNA修复等许多过程中起着重要作用。通过探索蛋白质在这些相互作用中的功能,可以了解相关生物事件的机制。近年来,已知蛋白质序列的数量迅速增加,但不幸的是,描述蛋白质结构和功能的数据库增长缓慢。因此,改进此类数据库对于预测蛋白质-核酸相互作用是有意义的。此外,通过了解蛋白质在这些相互作用中的功能,可以进一步了解相关生物事件的机制,例如病毒感染或设计新的药物靶点。每个序列的信息,包括其功能和相互作用位点,被收集和识别,并建立了一个名为 PNIDB 的数据库。PNIDB 中的蛋白质分为转录、免疫系统和结构蛋白等 27 类,然后使用机器学习方法预测每种蛋白质的功能。使用我们的方法,在标记序列上训练预测器,然后基于训练的分类器预测蛋白质的功能。通过 10 倍交叉验证,预测准确率达到了 77.43%。然后基于训练好的分类器预测蛋白质的功能。通过 10 倍交叉验证,预测准确率达到了 77.43%。然后基于训练好的分类器预测蛋白质的功能。通过 10 倍交叉验证,预测准确率达到了 77.43%。