当前位置: X-MOL 学术ACM Trans. Asian Low Resour. Lang. Inf. Process. › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
Detecting Entities of Works for Chinese Chatbot
ACM Transactions on Asian and Low-Resource Language Information Processing ( IF 2 ) Pub Date : 2020-09-27 , DOI: 10.1145/3414901
Chuhan Wu 1 , Fangzhao Wu 2 , Tao Qi 1 , Junxin Liu 3 , Yongfeng Huang 1 , Xing Xie 2
Affiliation  

Chatbots such as Xiaoice have gained huge popularity in recent years. Users frequently mention their favorite works such as songs and movies in conversations with chatbots. Detecting these entities can help design better chat strategies and improve user experience. Existing named entity recognition methods are mainly designed for formal texts, and their performance on the informal chatbot conversation texts may not be optimal. In addition, these methods rely on massive manually annotated data for model training. In this article, we propose a neural approach to detect entities of works for Chinese chatbot. Our approach is based on a language model (LM) long-short term memory (LSTM) convolutional neural network (CNN) conditional random value (CRF), or LM-LSTM-CNN-CRF, framework, which contains a language model to generate context-aware character embeddings, a Bi-LSTM network to learn contextual character representations from global contexts, a CNN to learn character representations from local contexts, and a CRF layer to jointly decode the character label sequence. In addition, we propose an automatic text annotation method via quote marks to reduce the effort of manual annotation. Besides, we propose an iterative data purification method to improve the quality of the automatically constructed labeled data. Massive experiments on a real-world dataset validate that our approach can achieve good performance on entity detection for Chinese chatbots.

中文翻译:

中文聊天机器人作品实体检测

小冰等聊天机器人近年来大受欢迎。用户在与聊天机器人的对话中经常提到他们最喜欢的作品,例如歌曲和电影。检测这些实体可以帮助设计更好的聊天策略并改善用户体验。现有的命名实体识别方法主要是为正式文本设计的,它们在非正式聊天机器人对话文本上的性能可能不是最优的。此外,这些方法依赖于大量人工标注的数据进行模型训练。在本文中,我们提出了一种神经方法来检测中文聊天机器人的作品实体。我们的方法基于语言模型 (LM) 长短期记忆 (LSTM) 卷积神经网络 (CNN) 条件随机值 (CRF) 或 LM-LSTM-CNN-CRF 框架,它包含一个用于生成上下文感知字符嵌入的语言模型,一个用于从全局上下文中学习上下文字符表示的 Bi-LSTM 网络,一个用于从本地上下文中学习字符表示的 CNN,以及一个用于联合解码字符标签序列的 CRF 层。此外,我们提出了一种通过引号自动标注文本的方法,以减少人工标注的工作量。此外,我们提出了一种迭代数据纯化方法来提高自动构建的标记数据的质量。在真实世界数据集上进行的大量实验验证了我们的方法可以在中文聊天机器人的实体检测方面取得良好的性能。和一个 CRF 层来联合解码字符标签序列。此外,我们提出了一种通过引号自动标注文本的方法,以减少人工标注的工作量。此外,我们提出了一种迭代数据纯化方法来提高自动构建的标记数据的质量。在真实世界数据集上进行的大量实验验证了我们的方法可以在中文聊天机器人的实体检测方面取得良好的性能。和一个 CRF 层来联合解码字符标签序列。此外,我们提出了一种通过引号自动标注文本的方法,以减少人工标注的工作量。此外,我们提出了一种迭代数据纯化方法来提高自动构建的标记数据的质量。在真实世界数据集上进行的大量实验验证了我们的方法可以在中文聊天机器人的实体检测方面取得良好的性能。
更新日期:2020-09-27
down
wechat
bug