当前位置: X-MOL 学术Brief. Bioinform. › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
Biomedical named entity recognition and linking datasets: survey and our recent development.
Briefings in Bioinformatics ( IF 6.8 ) Pub Date : 2020-06-30 , DOI: 10.1093/bib/bbaa054
Ming-Siang Huang,Po-Ting Lai,Pei-Yen Lin,Yu-Ting You,Richard Tzong-Han Tsai,Wen-Lian Hsu

Abstract
Natural language processing (NLP) is widely applied in biological domains to retrieve information from publications. Systems to address numerous applications exist, such as biomedical named entity recognition (BNER), named entity normalization (NEN) and protein–protein interaction extraction (PPIE). High-quality datasets can assist the development of robust and reliable systems; however, due to the endless applications and evolving techniques, the annotations of benchmark datasets may become outdated and inappropriate. In this study, we first review commonlyused BNER datasets and their potential annotation problems such as inconsistency and low portability. Then, we introduce a revised version of the JNLPBA dataset that solves potential problems in the original and use state-of-the-art named entity recognition systems to evaluate its portability to different kinds of biomedical literature, including protein–protein interaction and biology events. Lastly, we introduce an ensembled biomedical entity dataset (EBED) by extending the revised JNLPBA dataset with PubMed Central full-text paragraphs, figure captions and patent abstracts. This EBED is a multi-task dataset that covers annotations including gene, disease and chemical entities. In total, it contains 85000 entity mentions, 25000 entity mentions with database identifiers and 5000 attribute tags. To demonstrate the usage of the EBED, we review the BNER track from the AI CUP Biomedical Paper Analysis challenge. Availability: The revised JNLPBA dataset is available at https://iasl-btm.iis.sinica.edu.tw/BNER/Content/Re vised_JNLPBA.zip. The EBED dataset is available at https://iasl-btm.iis.sinica.edu.tw/BNER/Content/AICUP _EBED_dataset.rar. Contact: Email: thtsai@g.ncu.edu.tw, Tel. 886-3-4227151 ext. 35203, Fax: 886-3-422-2681 Email: hsu@iis.sinica.edu.tw, Tel. 886-2-2788-3799 ext. 2211, Fax: 886-2-2782-4814 Supplementary information: Supplementary data are available at Briefings in Bioinformatics online.


中文翻译:

生物医学命名实体识别和链接数据集:调查和我们最近的发展。

摘要
自然语言处理 (NLP) 广泛应用于生物领域,以从出版物中检索信息。存在解决众多应用的系统,例如生物医学命名实体识别 (BNER)、命名实体归一化 (NEN) 和蛋白质-蛋白质相互作用提取 (PPIE)。高质量的数据集有助于开发稳健可靠的系统;然而,由于无休止的应用和不断发展的技术,基准数据集的注释可能会变得过时和不合适。在这项研究中,我们首先回顾了常用的 BNER 数据集及其潜在的注释问题,例如不一致和低可移植性。然后,我们介绍了 JNLPBA 数据集的修订版,该数据集解决了原始数据集的潜在问题,并使用最先进的命名实体识别系统来评估其对不同类型生物医学文献的可移植性,包括蛋白质-蛋白质相互作用和生物学事件。最后,我们通过使用 PubMed Central 全文段落、图标题和专利摘要扩展修订后的 JNLPBA 数据集,引入了集成生物医学实体数据集 (EBED)。该 EBED 是一个多任务数据集,涵盖了包括基因、疾病和化学实体在内的注释。它总共包含 85000 个实体提及、25000 个带有数据库标识符的实体提及和 5000 个属性标签。为了演示 EBED 的使用,我们回顾了 AI CUP 生物医学论文分析挑战中的 BNER 轨道。包括蛋白质-蛋白质相互作用和生物学事件。最后,我们通过使用 PubMed Central 全文段落、图标题和专利摘要扩展修订后的 JNLPBA 数据集,引入了集成生物医学实体数据集 (EBED)。该 EBED 是一个多任务数据集,涵盖了包括基因、疾病和化学实体在内的注释。它总共包含 85000 个实体提及、25000 个带有数据库标识符的实体提及和 5000 个属性标签。为了演示 EBED 的使用,我们回顾了 AI CUP 生物医学论文分析挑战中的 BNER 轨道。包括蛋白质-蛋白质相互作用和生物学事件。最后,我们通过使用 PubMed Central 全文段落、图标题和专利摘要扩展修订后的 JNLPBA 数据集,引入了集成生物医学实体数据集 (EBED)。该 EBED 是一个多任务数据集,涵盖了包括基因、疾病和化学实体在内的注释。它总共包含 85000 个实体提及、25000 个带有数据库标识符的实体提及和 5000 个属性标签。为了演示 EBED 的使用,我们回顾了 AI CUP 生物医学论文分析挑战中的 BNER 轨道。该 EBED 是一个多任务数据集,涵盖了包括基因、疾病和化学实体在内的注释。它总共包含 85000 个实体提及、25000 个带有数据库标识符的实体提及和 5000 个属性标签。为了演示 EBED 的使用,我们回顾了 AI CUP 生物医学论文分析挑战中的 BNER 轨道。该 EBED 是一个多任务数据集,涵盖了包括基因、疾病和化学实体在内的注释。它总共包含 85000 个实体提及、25000 个带有数据库标识符的实体提及和 5000 个属性标签。为了演示 EBED 的使用,我们回顾了 AI CUP 生物医学论文分析挑战中的 BNER 轨道。可用性:修订后的 JNLPBA 数据集可从 https://iasl-btm.iis.sinica.edu.tw/BNER/Content/Re vised_JNLPBA.zip 获得。EBED 数据集可在 https://iasl-btm.iis.sinica.edu.tw/BNER/Content/AICUP _EBED_dataset.rar 获得。联系方式:电子邮件:thtsai@g.ncu.edu.tw,电话。886-3-4227151 分机。35203,传真:886-3-422-2681 邮箱:hsu@iis.sinica.edu.tw,电话。886-2-2788-3799 分机。2211,传真:886-2-2782-4814补充信息:补充数据可在在线生物信息学简报中获得
更新日期:2020-06-30
down
wechat
bug