当前位置: X-MOL 学术arXiv.cs.CL › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
BioALBERT: A Simple and Effective Pre-trained Language Model for Biomedical Named Entity Recognition
arXiv - CS - Computation and Language Pub Date : 2020-09-19 , DOI: arxiv-2009.09223
Usman Naseem, Matloob Khushi, Vinay Reddy, Sakthivel Rajendran, Imran Razzak, Jinman Kim

In recent years, with the growing amount of biomedical documents, coupled with advancement in natural language processing algorithms, the research on biomedical named entity recognition (BioNER) has increased exponentially. However, BioNER research is challenging as NER in the biomedical domain are: (i) often restricted due to limited amount of training data, (ii) an entity can refer to multiple types and concepts depending on its context and, (iii) heavy reliance on acronyms that are sub-domain specific. Existing BioNER approaches often neglect these issues and directly adopt the state-of-the-art (SOTA) models trained in general corpora which often yields unsatisfactory results. We propose biomedical ALBERT (A Lite Bidirectional Encoder Representations from Transformers for Biomedical Text Mining) bioALBERT, an effective domain-specific language model trained on large-scale biomedical corpora designed to capture biomedical context-dependent NER. We adopted a self-supervised loss used in ALBERT that focuses on modelling inter-sentence coherence to better learn context-dependent representations and incorporated parameter reduction techniques to lower memory consumption and increase the training speed in BioNER. In our experiments, BioALBERT outperformed comparative SOTA BioNER models on eight biomedical NER benchmark datasets with four different entity types. We trained four different variants of BioALBERT models which are available for the research community to be used in future research.

中文翻译:

BioALBERT:用于生物医学命名实体识别的简单有效的预训练语言模型

近年来,随着生物医学文献数量的不断增加,加上自然语言处理算法的进步,生物医学命名实体识别(BioNER)的研究呈指数级增长。然而,BioNER 研究具有挑战性,因为生物医学领域的 NER 有:(i)由于训练数据量有限而经常受到限制,(ii)一个实体可以根据其上下文引用多种类型和概念,以及(iii)高度依赖关于特定于子域​​的首字母缩略词。现有的 BioNER 方法往往忽略这些问题,直接采用在一般语料库中训练的最先进 (SOTA) 模型,这通常会产生不令人满意的结果。我们提出了生物医学 ALBERT(A Lite Bidirectional Encoder Representations from Transformers for Biomedical Text Mining)bioALBERT,在大规模生物医学语料库上训练的有效领域特定语言模型,旨在捕获生物医学上下文相关的 NER。我们采用了 ALBERT 中使用的自监督损失,专注于对句间连贯性进行建模以更好地学习上下文相关的表示,并结合参数减少技术来降低内存消耗并提高 BioNER 的训练速度。在我们的实验中,BioALBERT 在具有四种不同实体类型的八个生物医学 NER 基准数据集上的表现优于比较 SOTA BioNER 模型。我们训练了四种不同的 BioALBERT 模型变体,可供研究界在未来的研究中使用。我们采用了 ALBERT 中使用的自监督损失,专注于对句间连贯性进行建模以更好地学习上下文相关的表示,并结合参数减少技术来降低内存消耗并提高 BioNER 的训练速度。在我们的实验中,BioALBERT 在具有四种不同实体类型的八个生物医学 NER 基准数据集上的表现优于比较 SOTA BioNER 模型。我们训练了四种不同的 BioALBERT 模型变体,可供研究界在未来的研究中使用。我们采用了 ALBERT 中使用的自监督损失,专注于对句间连贯性进行建模以更好地学习上下文相关的表示,并结合参数减少技术来降低内存消耗并提高 BioNER 的训练速度。在我们的实验中,BioALBERT 在具有四种不同实体类型的八个生物医学 NER 基准数据集上的表现优于比较 SOTA BioNER 模型。我们训练了四种不同的 BioALBERT 模型变体,可供研究界在未来的研究中使用。BioALBERT 在具有四种不同实体类型的八个生物医学 NER 基准数据集上的表现优于比较 SOTA BioNER 模型。我们训练了四种不同的 BioALBERT 模型变体,可供研究界在未来的研究中使用。BioALBERT 在具有四种不同实体类型的八个生物医学 NER 基准数据集上的表现优于比较 SOTA BioNER 模型。我们训练了四种不同的 BioALBERT 模型变体,可供研究界在未来的研究中使用。
更新日期:2020-09-22
down
wechat
bug