当前位置: X-MOL 学术Inf. Process. Manag. › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
A comparative study of effective approaches for Arabic sentiment analysis
Information Processing & Management ( IF 7.4 ) Pub Date : 2020-12-16 , DOI: 10.1016/j.ipm.2020.102438
Ibrahim Abu Farha , Walid Magdy

Sentiment analysis (SA) is a natural language processing (NLP) application that aims to analyse and identify sentiment within a piece of text. Arabic SA started to receive more attention in the last decade with many approaches showing some effectiveness for detecting sentiment on multiple datasets. While there have been some surveys summarising some of the approaches for Arabic SA in literature, most of these approaches are reported on different datasets, which makes it difficult to identify the most effective approaches among those. In addition, those approaches do not cover the recent advances in NLP that use transformers. This paper presents a comprehensive comparative study on the most effective approaches used for Arabic sentiment analysis. We re-implement most of the existing approaches for Arabic SA and test their effectiveness on three of the most popular benchmark datasets for Arabic SA. Further, we examine the use of transformer-based language models for Arabic SA and show their superior performance compared to the existing approaches, where the best model achieves F-score scores of 0.69, 0.76, and 0.92 on the SemEval, ASTD, and ArSAS benchmark datasets. We also apply an extensive analysis of the possible reasons for failures, which show the limitations of the existing annotated Arabic SA datasets, and the challenge of sarcasm that is prominent in Arabic dialects. Finally, we highlight the main gaps in Arabic sentiment analysis research and suggest the most in-need future research directions in this area.



中文翻译:

阿拉伯语情感分析有效方法的比较研究

情感分析(SA)是一种自然语言处理(NLP)应用程序,旨在分析和识别一段文本中的情感。过去十年中,阿拉伯SA开始受到越来越多的关注,许多方法显示出在检测多个数据集上的情感方面的有效性。尽管有一些调查总结了阿拉伯语SA的一些方法,但其中大多数方法是在不同的数据集上报告的,这使得很难在其中找到最有效的方法。此外,这些方法未涵盖使用变压器的NLP的最新进展。本文对用于阿拉伯语情感分析的最有效方法进行了全面的比较研究。我们重新实现了大多数针对阿拉伯SA的现有方法,并在三个最受欢迎的阿拉伯SA基准数据集上测试了它们的有效性。此外,我们检查了基于转换器的语言模型在阿拉伯SA中的使用情况,并显示了它们与现有方法相比的优越性能,在现有方法中,最佳模型在SemEval,ASTD和ArSAS上的F得分分别为0.69、0.76和0.92基准数据集。我们还对失败的可能原因进行了广泛的分析,这表明了现有带注释的阿拉伯SA数据集的局限性,以及在阿拉伯方言中突出的讽刺的挑战。最后,我们强调了阿拉伯语情感分析研究中的主要差距,并提出了该领域最需要的未来研究方向。我们检查了基于变压器的语言模型在阿拉伯SA中的使用情况,并展示了它们与现有方法相比的优越性能,在现有方法中,最佳模型在SemEval,ASTD和ArSAS基准数据集上的F得分分别为0.69、0.76和0.92 。我们还对失败的可能原因进行了广泛的分析,这表明了现有带注释的阿拉伯SA数据集的局限性,以及在阿拉伯方言中突出的讽刺的挑战。最后,我们强调了阿拉伯语情感分析研究中的主要差距,并提出了该领域最需要的未来研究方向。我们检查了基于变压器的语言模型在阿拉伯SA中的使用情况,并展示了它们与现有方法相比的优越性能,在现有方法中,最佳模型在SemEval,ASTD和ArSAS基准数据集上的F得分分别为0.69、0.76和0.92 。我们还对失败的可能原因进行了广泛的分析,这表明了现有带注释的阿拉伯SA数据集的局限性,以及在阿拉伯方言中突出的讽刺的挑战。最后,我们强调了阿拉伯语情感分析研究中的主要差距,并提出了该领域最需要的未来研究方向。和ArSAS基准数据集。我们还对失败的可能原因进行了广泛的分析,这表明了现有带注释的阿拉伯SA数据集的局限性,以及在阿拉伯方言中突出的讽刺的挑战。最后,我们强调了阿拉伯语情感分析研究中的主要差距,并提出了该领域最需要的未来研究方向。和ArSAS基准数据集。我们还对失败的可能原因进行了广泛的分析,这表明了现有带注释的阿拉伯SA数据集的局限性,以及在阿拉伯方言中突出的讽刺的挑战。最后,我们强调了阿拉伯语情感分析研究中的主要差距,并提出了该领域最需要的未来研究方向。

更新日期:2020-12-16
down
wechat
bug