当前位置: X-MOL 学术Knowl. Inf. Syst. › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
Sentiment analysis on big sparse data streams with limited labels
Knowledge and Information Systems ( IF 2.5 ) Pub Date : 2019-08-17 , DOI: 10.1007/s10115-019-01392-9
Vasileios Iosifidis , Eirini Ntoutsi

Sentiment analysis is an important task in order to gain insights over the huge amounts of opinionated texts generated on a daily basis in social media like Twitter. Despite its huge amount, standard supervised learning methods won’t work upon such sort of data due to lack of labels and the impracticality of (human) labeling at this scale. In this work, we leverage distant supervision and semi-supervised learning to annotate a big stream of tweets from 2015 which consists of 228 million tweets without retweets (and 275 million with retweets). We present the insights from our annotation process regarding the effect of different semi-supervised learning approaches, namely Self-Learning, Co-Training and Expectation–Maximization. Moreover, we propose two annotation modes, the batch mode where all labeled and unlabeled data are available to the algorithms from the beginning and a lightweight streaming mode that processes the data in batches based on their arrival time in the stream. Our experiments show that stream processing with a sliding window of three months achieves comparable results to batch processing while being more efficient. Finally, to tackle the class imbalance problem, as our dataset is imbalanced toward the positive sentiment class, and its aggravation by the semi-supervised learning methods, we employ data augmentation in the semi-supervised learning process in order to equalize the class distribution. Our results show that semi-supervised learning coupled with data augmentation outperforms significantly the default semi-supervised annotation process. We make the so-called TSentiment15 sentiment-annotated dataset available to the community to be used for evaluation purposes and for developing new methods.

中文翻译:

标签有限的大型稀疏数据流的情感分析

情感分析是一项重要的任务,目的是获得对每天在Twitter等社交媒体上每天生成的大量有意见的文本的见解。尽管有大量的内容,但是由于缺少标签以及(人类)标签在这种规模上不切实际,标准的监督学习方法无法在这类数据上使用。在这项工作中,我们利用远程监督和半监督学习对2015年以来的大量推文进行注释,其中包括2.28亿条未转发的推文(以及2.75亿条转发的推文)。我们从注释过程中提出了关于不同的半监督学习方法(即自学,共同训练和期望最大化)的效果的见解。此外,我们提出了两种注释模式:批处理模式,其中所有带标签和未标记的数据从一开始就可用于算法,而轻量级流模式则根据数据在流中的到达时间来批量处理数据。我们的实验表明,三个月的滑动窗口流处理可以达到与批处理相当的结果,同时效率更高。最后,为了解决班级不平衡的问题,因为我们的数据集朝着积极的情感班级不平衡,并且由于半监督学习方法的加剧,我们在半监督学习过程中采用了数据扩充,以均衡班级分布。我们的结果表明,半监督学习与数据扩充相结合的性能明显优于默认的半监督注释过程。我们做所谓的 我们的实验表明,三个月的滑动窗口流处理可以达到与批处理相当的结果,同时效率更高。最后,为了解决班级不平衡的问题,因为我们的数据集朝着积极的情感班级不平衡,并且由于半监督学习方法的加剧,我们在半监督学习过程中采用了数据扩充,以均衡班级分布。我们的结果表明,与数据增强相结合的半监督学习明显优于默认的半监督注释过程。我们做所谓的 我们的实验表明,三个月的滑动窗口流处理可以达到与批处理相当的结果,同时效率更高。最后,为了解决班级不平衡的问题,因为我们的数据集朝着积极的情感班级不平衡,并且由于半监督学习方法的加剧,我们在半监督学习过程中采用了数据扩充,以均衡班级分布。我们的结果表明,与数据增强相结合的半监督学习明显优于默认的半监督注释过程。我们做所谓的 以及半监督学习方法的加剧,我们在半监督学习过程中采用了数据扩充,以使班级分布均衡。我们的结果表明,与数据增强相结合的半监督学习明显优于默认的半监督注释过程。我们做所谓的 以及半监督学习方法的加剧,我们在半监督学习过程中采用了数据扩充,以使班级分布均衡。我们的结果表明,与数据增强相结合的半监督学习明显优于默认的半监督注释过程。我们做所谓的TSentiment15带有情感注释的数据集可供社区使用,用于评估目的和开发新方法。
更新日期:2019-08-17
down
wechat
bug