当前位置: X-MOL 学术Expert Syst. Appl. › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
A two-step hybrid unsupervised model with attention mechanism for aspect extraction
Expert Systems with Applications ( IF 8.5 ) Pub Date : 2020-06-26 , DOI: 10.1016/j.eswa.2020.113673
Ganpat Singh Chauhan , Yogesh Kumar Meena , Dinesh Gopalani , Ravi Nahta

Social networking sites have a wealth of user-generated unstructured text for fine-grained sentiment analysis regarding the changing dynamics in the marketplace. In aspect-level sentiment analysis, aspect term extraction (ATE) task identifies the targets of user opinions in the sentence. In the last few years, deep learning approaches significantly improved the performance of aspect extraction. However, the performance of recent models relies on the accuracy of dependency parser and part-of-speech (POS) tagger, which degrades the performance of the system if the sentence doesn't follow the language constraints and the text contains a variety of multi-word aspect-terms. Furthermore, lack of domain and contextual information is again an issue to extract domain-specific, most relevant aspect terms. The existing approaches are not capable of capturing long term dependencies for noun phrases, which in turn fails to extract some valid aspect terms. Therefore, this paper proposes a two-step mixed unsupervised model by combining linguistic patterns with deep learning techniques to improve the ATE task. The first step uses rules-based methods to extract the single word and multi-word aspects, which further prune domain-specific relevant aspects using fine-tuned word embedding. In the second step, the extracted aspects in the first step are used as label data to train the attention-based deep learning model for aspect-term extraction. The experimental evaluation on the SemEval-16 dataset validates our approach as compared to the most recent and baseline techniques.



中文翻译:

具有注意机制的两步混合无监督模型,用于长宽比提取

社交网站拥有大量用户生成的非结构化文本,可用于对市场动态变化进行细粒度的情绪分析。在方面级别的情感分析中,方面术语提取(ATE)任务标识句子中用户意见的目标。在过去的几年中,深度学习方法显着提高了方面提取的性能。但是,最新模型的性能依赖于依赖性分析器和词性(POS)标记器的准确性,如果句子不遵循语言限制并且文本包含多种多样的词性,则会降低系统的性能。 -词方面术语。此外,缺少域和上下文信息再次成为提取特定于域的,最相关的方面术语的问题。现有的方法不能捕获名词短语的长期依赖性,这反过来又不能提取一些有效的方面术语。因此,本文提出了一种将语言模式与深度学习技术相结合以改善ATE任务的两步混合无监督模型。第一步使用基于规则的方法提取单个单词和多单词方面,然后使用微调的单词嵌入进一步修剪特定于领域的相关方面。在第二步中,将第一步中提取的方面用作标签数据,以训练基于注意力的深度学习模型进行方面项提取。与最新技术和基准技术相比,对SemEval-16数据集的实验评估验证了我们的方法。从而无法提取一些有效的方面术语。因此,本文提出了一种将语言模式与深度学习技术相结合以改善ATE任务的两步混合无监督模型。第一步使用基于规则的方法提取单个单词和多单词方面,然后使用微调的单词嵌入进一步修剪特定于领域的相关方面。在第二步中,将第一步中提取的方面用作标签数据,以训练基于注意力的深度学习模型进行方面项提取。与最新技术和基准技术相比,对SemEval-16数据集的实验评估验证了我们的方法。从而无法提取一些有效的方面术语。因此,本文提出了一种将语言模式与深度学习技术相结合以改善ATE任务的两步混合无监督模型。第一步使用基于规则的方法提取单个单词和多单词方面,然后使用微调的单词嵌入进一步修剪特定于领域的相关方面。在第二步中,将第一步中提取的方面用作标签数据,以训练基于注意力的深度学习模型进行方面项提取。与最新技术和基准技术相比,对SemEval-16数据集的实验评估验证了我们的方法。第一步使用基于规则的方法提取单个单词和多单词方面,然后使用微调的单词嵌入进一步修剪特定于领域的相关方面。在第二步中,将第一步中提取的方面用作标签数据,以训练基于注意力的深度学习模型进行方面项提取。与最新技术和基准技术相比,对SemEval-16数据集的实验评估验证了我们的方法。第一步使用基于规则的方法提取单个单词和多单词方面,然后使用微调的单词嵌入进一步修剪特定于领域的相关方面。在第二步中,将第一步中提取的方面用作标签数据,以训练基于注意力的深度学习模型进行方面项提取。与最新技术和基准技术相比,对SemEval-16数据集的实验评估验证了我们的方法。

更新日期:2020-06-26
down
wechat
bug