当前位置: X-MOL 学术arXiv.cs.CL › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
MFE-NER: Multi-feature Fusion Embedding for Chinese Named Entity Recognition
arXiv - CS - Computation and Language Pub Date : 2021-09-16 , DOI: arxiv-2109.07877
Jiatong Li, Kui Meng

Pre-trained language models lead Named Entity Recognition (NER) into a new era, while some more knowledge is needed to improve their performance in specific problems. In Chinese NER, character substitution is a complicated linguistic phenomenon. Some Chinese characters are quite similar for sharing the same components or having similar pronunciations. People replace characters in a named entity with similar characters to generate a new collocation but referring to the same object. It becomes even more common in the Internet age and is often used to avoid Internet censorship or just for fun. Such character substitution is not friendly to those pre-trained language models because the new collocations are occasional. As a result, it always leads to unrecognizable or recognition errors in the NER task. In this paper, we propose a new method, Multi-Feature Fusion Embedding for Chinese Named Entity Recognition (MFE-NER), to strengthen the language pattern of Chinese and handle the character substitution problem in Chinese Named Entity Recognition. MFE fuses semantic, glyph, and phonetic features together. In the glyph domain, we disassemble Chinese characters into components to denote structure features so that characters with similar structures can have close embedding space representation. Meanwhile, an improved phonetic system is also proposed in our work, making it reasonable to calculate phonetic similarity among Chinese characters. Experiments demonstrate that our method improves the overall performance of Chinese NER and especially performs well in informal language environments.

中文翻译:

MFE-NER:中文命名实体识别的多特征融合嵌入

预训练的语言模型将命名实体识别 (NER) 带入了一个新时代,但需要更多的知识来提高它们在特定问题上的表现。在中文 NER 中,字符替换是一种复杂的语言现象。一些汉字非常相似,因为共享相同的组件或具有相似的发音。人们用相似的字符替换命名实体中的字符以生成新的搭配,但指的是同一个对象。它在互联网时代变得更加普遍,经常被用来避免互联网审查或只是为了好玩。这种字符替换对那些预先训练好的语言模型并不友好,因为新的搭配是偶然的。结果,它总是导致NER任务中无法识别或识别错误。在本文中,我们提出了一种新方法,Multi-Feature Fusion Embedding for Chinese Named Entity Recognition (MFE-NER),加强中文的语言模式,处理中文命名实体识别中的字符替换问题。MFE 将语义、字形和语音特征融合在一起。在字形域中,我们将汉字分解成组件来表示结构特征,以便具有相似结构的字符可以具有紧密的嵌入空间表示。同时,我们的工作还提出了一种改进的语音系统,使计算汉字之间的语音相似度变得合理。实验表明,我们的方法提高了中文 NER 的整体性能,尤其是在非正式语言环境中表现良好。加强汉语的语言模式,处理汉语命名实体识别中的字符替换问题。MFE 将语义、字形和语音特征融合在一起。在字形域中,我们将汉字分解成组件来表示结构特征,以便具有相似结构的字符可以具有紧密的嵌入空间表示。同时,我们的工作还提出了一种改进的语音系统,使计算汉字之间的语音相似度变得合理。实验表明,我们的方法提高了中文 NER 的整体性能,尤其是在非正式语言环境中表现良好。加强汉语的语言模式,处理汉语命名实体识别中的字符替换问题。MFE 将语义、字形和语音特征融合在一起。在字形域中,我们将汉字分解成组件来表示结构特征,以便具有相似结构的字符可以具有紧密的嵌入空间表示。同时,我们的工作还提出了一种改进的语音系统,使计算汉字之间的语音相似度变得合理。实验表明,我们的方法提高了中文 NER 的整体性能,尤其是在非正式语言环境中表现良好。我们将汉字分解成组件来表示结构特征,以便具有相似结构的字符可以具有紧密的嵌入空间表示。同时,我们的工作还提出了一种改进的语音系统,使计算汉字之间的语音相似度变得合理。实验表明,我们的方法提高了中文 NER 的整体性能,尤其是在非正式语言环境中表现良好。我们将汉字分解成组件来表示结构特征,以便具有相似结构的字符可以具有紧密的嵌入空间表示。同时,我们的工作还提出了一种改进的语音系统,使计算汉字之间的语音相似度变得合理。实验表明,我们的方法提高了中文 NER 的整体性能,尤其是在非正式语言环境中表现良好。
更新日期:2021-09-17
down
wechat
bug