当前位置: X-MOL 学术Nat. Lang. Eng. › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
Transfer learning for Turkish named entity recognition on noisy text
Natural Language Engineering ( IF 2.3 ) Pub Date : 2020-01-28 , DOI: 10.1017/s1351324919000627
Emre Kağan Akkaya , Burcu Can

In this article, we investigate using deep neural networks with different word representation techniques for named entity recognition (NER) on Turkish noisy text. We argue that valuable latent features for NER can, in fact, be learned without using any hand-crafted features and/or domain-specific resources such as gazetteers and lexicons. In this regard, we utilize character-level, character n-gram-level, morpheme-level, and orthographic character-level word representations. Since noisy data with NER annotation are scarce for Turkish, we introduce a transfer learning model in order to learn infrequent entity types as an extension to the Bi-LSTM-CRF architecture by incorporating an additional conditional random field (CRF) layer that is trained on a larger (but formal) text and a noisy text simultaneously. This allows us to learn from both formal and informal/noisy text, thus improving the performance of our model further for rarely seen entity types. We experimented on Turkish as a morphologically rich language and English as a relatively morphologically poor language. We obtained an entity-level F1 score of 67.39% on Turkish noisy data and 45.30% on English noisy data, which outperforms the current state-of-art models on noisy text. The English scores are lower compared to Turkish scores because of the intense sparsity in the data introduced by the user writing styles. The results prove that using subword information significantly contributes to learning latent features for morphologically rich languages.

中文翻译:

噪声文本上土耳其命名实体识别的迁移学习

在本文中,我们研究了使用具有不同单词表示技术的深度神经网络在土耳其噪声文本上进行命名实体识别 (NER)。我们认为,NER 的有价值的潜在特征实际上可以在不使用任何手工制作的特征和/或特定领域的资源(如地名词典和词典)的情况下学习。在这方面,我们利用字符级、字符 n-gram 级、词素级和正字形字符级单词表示。由于土耳其语中带有 NER 注释的噪声数据很少,我们引入了一个迁移学习模型,以便通过结合一个额外的条件随机场 (CRF) 层来学习不常见的实体类型作为 Bi-LSTM-CRF 架构的扩展,该层在一个更大(但正式)的文本和一个嘈杂的文本同时出现。这使我们能够从正式和非正式/嘈杂的文本中学习,从而进一步提高我们模型对于很少见的实体类型的性能。我们将土耳其语作为一种形态丰富的语言和英语作为一种形态相对较差的语言进行了实验。我们在土耳其噪声数据上获得了 67.39% 的实体级 F1 分数,在英语噪声数据上获得了 45.30% 的分数,这在噪声文本上优于当前最先进的模型。由于用户写作风格引入的数据非常稀疏,英语分数低于土耳其语分数。结果证明,使用子词信息显着有助于学习形态丰富语言的潜在特征。我们将土耳其语作为一种形态丰富的语言和英语作为一种形态相对较差的语言进行了实验。我们在土耳其噪声数据上获得了 67.39% 的实体级 F1 分数,在英语噪声数据上获得了 45.30% 的分数,这在噪声文本上优于当前最先进的模型。由于用户写作风格引入的数据非常稀疏,英语分数低于土耳其语分数。结果证明,使用子词信息显着有助于学习形态丰富语言的潜在特征。我们将土耳其语作为一种形态丰富的语言和英语作为一种形态相对较差的语言进行了实验。我们在土耳其噪声数据上获得了 67.39% 的实体级 F1 分数,在英语噪声数据上获得了 45.30% 的分数,这在噪声文本上优于当前最先进的模型。由于用户写作风格引入的数据非常稀疏,英语分数低于土耳其语分数。结果证明,使用子词信息显着有助于学习形态丰富语言的潜在特征。由于用户写作风格引入的数据非常稀疏,英语分数低于土耳其语分数。结果证明,使用子词信息显着有助于学习形态丰富语言的潜在特征。由于用户写作风格引入的数据非常稀疏,英语分数低于土耳其语分数。结果证明,使用子词信息显着有助于学习形态丰富语言的潜在特征。
更新日期:2020-01-28
down
wechat
bug