当前位置:
X-MOL 学术
›
Database J. Biol. Databases Curation
›
论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
UPCLASS: a deep learning-based classifier for UniProtKB entry publications.
Database: The Journal of Biological Databases and Curation ( IF 5.8 ) Pub Date : 2020-01-01 , DOI: 10.1093/database/baaa026 Douglas Teodoro 1, 2 , Julien Knafou 1, 2 , Nona Naderi 1, 2 , Emilie Pasche 1, 2 , Julien Gobeill 1, 2 , Cecilia N Arighi 3 , Patrick Ruch 1, 2
Database: The Journal of Biological Databases and Curation ( IF 5.8 ) Pub Date : 2020-01-01 , DOI: 10.1093/database/baaa026 Douglas Teodoro 1, 2 , Julien Knafou 1, 2 , Nona Naderi 1, 2 , Emilie Pasche 1, 2 , Julien Gobeill 1, 2 , Cecilia N Arighi 3 , Patrick Ruch 1, 2
Affiliation
In the UniProt Knowledgebase (UniProtKB), publications providing evidence for a specific protein annotation entry are organized across different categories, such as function, interaction and expression, based on the type of data they contain. To provide a systematic way of categorizing computationally mapped bibliographies in UniProt, we investigate a convolutional neural network (CNN) model to classify publications with accession annotations according to UniProtKB categories. The main challenge of categorizing publications at the accession annotation level is that the same publication can be annotated with multiple proteins and thus be associated with different category sets according to the evidence provided for the protein. We propose a model that divides the document into parts containing and not containing evidence for the protein annotation. Then, we use these parts to create different feature sets for each accession and feed them to separate layers of the network. The CNN model achieved a micro F1-score of 0.72 and a macro F1-score of 0.62, outperforming baseline models based on logistic regression and support vector machine by up to 22 and 18 percentage points, respectively. We believe that such an approach could be used to systematically categorize the computationally mapped bibliography in UniProtKB, which represents a significant set of the publications, and help curators to decide whether a publication is relevant for further curation for a protein accession. Database URL: https://goldorak.hesge.ch/bioexpclass/upclass/.
中文翻译:
UPCLASS:UniProtKB 入门出版物的基于深度学习的分类器。
在 UniProt 知识库 (UniProtKB) 中,为特定蛋白质注释条目提供证据的出版物根据其包含的数据类型分为不同类别,例如功能、相互作用和表达。为了提供对 UniProt 中计算映射的书目进行分类的系统方法,我们研究了一个卷积神经网络 (CNN) 模型,以根据 UniProtKB 类别对具有加入注释的出版物进行分类。在加入注释级别对出版物进行分类的主要挑战是同一出版物可以用多种蛋白质注释,因此根据为蛋白质提供的证据与不同的类别集相关联。我们提出了一个模型,该模型将文档分为包含和不包含蛋白质注释证据的部分。然后,我们使用这些部分为每个加入创建不同的特征集,并将它们提供给网络的不同层。CNN 模型的微观 F1 得分为 0.72,宏观 F1 得分为 0.62,分别比基于逻辑回归和支持向量机的基线模型高出 22 个百分点和 18 个百分点。我们相信,这种方法可用于系统地对 UniProtKB 中的计算映射参考书目进行分类,这代表了一组重要的出版物,并帮助策展人确定出版物是否与蛋白质加入的进一步策展相关。数据库网址:https://goldorak.hesge.ch/bioexpclass/upclass/。CNN 模型的微观 F1 得分为 0.72,宏观 F1 得分为 0.62,分别比基于逻辑回归和支持向量机的基线模型高出 22 个百分点和 18 个百分点。我们相信,这种方法可用于系统地对 UniProtKB 中的计算映射参考书目进行分类,这代表了一组重要的出版物,并帮助策展人确定出版物是否与蛋白质加入的进一步策展相关。数据库网址:https://goldorak.hesge.ch/bioexpclass/upclass/。CNN 模型的微观 F1 得分为 0.72,宏观 F1 得分为 0.62,分别比基于逻辑回归和支持向量机的基线模型高出 22 个百分点和 18 个百分点。我们相信,这种方法可用于系统地对 UniProtKB 中的计算映射参考书目进行分类,这代表了一组重要的出版物,并帮助策展人确定出版物是否与蛋白质加入的进一步策展相关。数据库网址:https://goldorak.hesge.ch/bioexpclass/upclass/。我们相信,这种方法可用于系统地对 UniProtKB 中的计算映射参考书目进行分类,这代表了一组重要的出版物,并帮助策展人确定出版物是否与蛋白质加入的进一步策展相关。数据库网址:https://goldorak.hesge.ch/bioexpclass/upclass/。我们相信,这种方法可用于系统地对 UniProtKB 中的计算映射参考书目进行分类,这代表了一组重要的出版物,并帮助策展人确定出版物是否与蛋白质加入的进一步策展相关。数据库网址:https://goldorak.hesge.ch/bioexpclass/upclass/。
更新日期:2020-05-04
中文翻译:
UPCLASS:UniProtKB 入门出版物的基于深度学习的分类器。
在 UniProt 知识库 (UniProtKB) 中,为特定蛋白质注释条目提供证据的出版物根据其包含的数据类型分为不同类别,例如功能、相互作用和表达。为了提供对 UniProt 中计算映射的书目进行分类的系统方法,我们研究了一个卷积神经网络 (CNN) 模型,以根据 UniProtKB 类别对具有加入注释的出版物进行分类。在加入注释级别对出版物进行分类的主要挑战是同一出版物可以用多种蛋白质注释,因此根据为蛋白质提供的证据与不同的类别集相关联。我们提出了一个模型,该模型将文档分为包含和不包含蛋白质注释证据的部分。然后,我们使用这些部分为每个加入创建不同的特征集,并将它们提供给网络的不同层。CNN 模型的微观 F1 得分为 0.72,宏观 F1 得分为 0.62,分别比基于逻辑回归和支持向量机的基线模型高出 22 个百分点和 18 个百分点。我们相信,这种方法可用于系统地对 UniProtKB 中的计算映射参考书目进行分类,这代表了一组重要的出版物,并帮助策展人确定出版物是否与蛋白质加入的进一步策展相关。数据库网址:https://goldorak.hesge.ch/bioexpclass/upclass/。CNN 模型的微观 F1 得分为 0.72,宏观 F1 得分为 0.62,分别比基于逻辑回归和支持向量机的基线模型高出 22 个百分点和 18 个百分点。我们相信,这种方法可用于系统地对 UniProtKB 中的计算映射参考书目进行分类,这代表了一组重要的出版物,并帮助策展人确定出版物是否与蛋白质加入的进一步策展相关。数据库网址:https://goldorak.hesge.ch/bioexpclass/upclass/。CNN 模型的微观 F1 得分为 0.72,宏观 F1 得分为 0.62,分别比基于逻辑回归和支持向量机的基线模型高出 22 个百分点和 18 个百分点。我们相信,这种方法可用于系统地对 UniProtKB 中的计算映射参考书目进行分类,这代表了一组重要的出版物,并帮助策展人确定出版物是否与蛋白质加入的进一步策展相关。数据库网址:https://goldorak.hesge.ch/bioexpclass/upclass/。我们相信,这种方法可用于系统地对 UniProtKB 中的计算映射参考书目进行分类,这代表了一组重要的出版物,并帮助策展人确定出版物是否与蛋白质加入的进一步策展相关。数据库网址:https://goldorak.hesge.ch/bioexpclass/upclass/。我们相信,这种方法可用于系统地对 UniProtKB 中的计算映射参考书目进行分类,这代表了一组重要的出版物,并帮助策展人确定出版物是否与蛋白质加入的进一步策展相关。数据库网址:https://goldorak.hesge.ch/bioexpclass/upclass/。