当前位置: X-MOL 学术Int. J. Artif. Intell. Tools › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
Short Semantic Patterns: A Linguistic Pattern Mining Approach for Content Analysis Applied to Hate Speech
International Journal on Artificial Intelligence Tools ( IF 1.0 ) Pub Date : 2020-04-01 , DOI: 10.1142/s0218213020400023
Danielly Sorato 1 , Fábio B. Goularte 1 , Renato Fileto 1
Affiliation  

Microblog posts such as tweets frequently contain users’ opinions and thoughts about events, products, people, institutions, etc. However, the usage of social media to prop-agate hate speech is not an uncommon occurrence. Analyzing hateful speech in social media is essential for understanding, fighting and discouraging such actions. We believe that by extracting fragments of text that are semantically similar it is possible to depict recurrent linguistic patterns in certain kinds of discourse. Therefore, we aim to use these patterns to encapsulate frequent statements textually expressed in microblog posts. In this paper, we propose to exploit such linguistic patterns in the context of hate speech. Through a technique that we call SSP (Short Semantic Pattern) mining, we are able to extract sequences of words that share a similar meaning in their word embedding representation. By analyzing the extracted patterns, we reveal some kinds of discourses that are replayed across a dataset, such as racist and sexist statements. Afterwards, we experiment using SSP as features to build classifiers that detect if a tweet contains hate speech (binary classification) and to distinguish between sexist, racist and clean tweets (ternary classification). The SSP instances encountered in tweets containing sexism have shown that a large number of sexist tweets began with the introduction ‘I’m not sexist but’ and ‘Call me sexist but’. Meanwhile, SSP instances found in tweets reproducing racism revealed a prominence of contents against the Islamic religion, associated entities and organizations.

中文翻译:

短语义模式:一种用于仇恨言论的内容分析的语言模式挖掘方法

推文等微博帖子经常包含用户对事件、产品、人员、机构等的意见和想法。然而,利用社交媒体传播仇恨言论的情况并不少见。分析社交媒体中的仇恨言论对于理解、打击和阻止此类行为至关重要。我们相信,通过提取语义相似的文本片段,可以描述某些话语中反复出现的语言模式。因此,我们的目标是使用这些模式来封装在微博文章中以文本形式表达的频繁语句。在本文中,我们建议在仇恨言论的背景下利用这种语言模式。通过我们称为 SSP(短语义模式)挖掘的技术,我们能够提取在词嵌入表示中具有相似含义的词序列。通过分析提取的模式,我们揭示了在数据集中重播的某些类型的话语,例如种族主义和性别歧视言论。之后,我们尝试使用 SSP 作为特征来构建分类器,以检测推文是否包含仇恨言论(二元分类),并区分性别歧视、种族主义和干净的推文(三元分类)。在包含性别歧视的推文中遇到的 SSP 实例表明,大量性别歧视推文以“我不是性别歧视但”和“叫我性别歧视但”开头。同时,在复制种族主义的推文中发现的 SSP 实例揭示了反对伊斯兰宗教、相关实体和组织的内容突出。通过分析提取的模式,我们揭示了在数据集中重播的某些类型的话语,例如种族主义和性别歧视言论。之后,我们尝试使用 SSP 作为特征来构建分类器,以检测推文是否包含仇恨言论(二元分类),并区分性别歧视、种族主义和干净的推文(三元分类)。在包含性别歧视的推文中遇到的 SSP 实例表明,大量性别歧视推文以“我不是性别歧视但”和“叫我性别歧视但”开头。同时,在复制种族主义的推文中发现的 SSP 实例揭示了反对伊斯兰宗教、相关实体和组织的内容突出。通过分析提取的模式,我们揭示了在数据集中重播的某些类型的话语,例如种族主义和性别歧视言论。之后,我们尝试使用 SSP 作为特征来构建分类器,以检测推文是否包含仇恨言论(二元分类),并区分性别歧视、种族主义和干净的推文(三元分类)。在包含性别歧视的推文中遇到的 SSP 实例表明,大量性别歧视推文以“我不是性别歧视但”和“叫我性别歧视但”开头。同时,在复制种族主义的推文中发现的 SSP 实例揭示了反对伊斯兰宗教、相关实体和组织的内容突出。我们尝试使用 SSP 作为特征来构建分类器,以检测推文是否包含仇恨言论(二元分类),并区分性别歧视、种族主义和干净的推文(三元分类)。在包含性别歧视的推文中遇到的 SSP 实例表明,大量性别歧视推文以“我不是性别歧视但”和“叫我性别歧视但”开头。同时,在复制种族主义的推文中发现的 SSP 实例揭示了反对伊斯兰宗教、相关实体和组织的内容突出。我们尝试使用 SSP 作为特征来构建分类器,以检测推文是否包含仇恨言论(二元分类),并区分性别歧视、种族主义和干净的推文(三元分类)。在包含性别歧视的推文中遇到的 SSP 实例表明,大量性别歧视推文以“我不是性别歧视但”和“叫我性别歧视但”开头。同时,在复制种族主义的推文中发现的 SSP 实例揭示了反对伊斯兰宗教、相关实体和组织的内容突出。在包含性别歧视的推文中遇到的 SSP 实例表明,大量性别歧视推文以“我不是性别歧视但”和“叫我性别歧视但”开头。同时,在复制种族主义的推文中发现的 SSP 实例揭示了反对伊斯兰宗教、相关实体和组织的内容突出。在包含性别歧视的推文中遇到的 SSP 实例表明,大量性别歧视推文以“我不是性别歧视但”和“叫我性别歧视但”开头。同时,在复制种族主义的推文中发现的 SSP 实例揭示了反对伊斯兰宗教、相关实体和组织的内容突出。
更新日期:2020-04-01
down
wechat
bug