当前位置: X-MOL 学术Inf. Process. Manag. › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
Automated identification of bias inducing words in news articles using linguistic and context-oriented features
Information Processing & Management ( IF 8.6 ) Pub Date : 2021-02-11 , DOI: 10.1016/j.ipm.2021.102505
Timo Spinde , Lada Rudnitckaia , Jelena Mitrović , Felix Hamborg , Michael Granitzer , Bela Gipp , Karsten Donnay

Media has a substantial impact on public perception of events, and, accordingly, the way media presents events can potentially alter the beliefs and views of the public. One of the ways in which bias in news articles can be introduced is by altering word choice. Such a form of bias is very challenging to identify automatically due to the high context-dependence and the lack of a large-scale gold-standard data set. In this paper, we present a prototypical yet robust and diverse data set for media bias research. It consists of 1,700 statements representing various media bias instances and contains labels for media bias identification on the word and sentence level. In contrast to existing research, our data incorporate background information on the participants’ demographics, political ideology, and their opinion about media in general. Based on our data, we also present a way to detect bias-inducing words in news articles automatically. Our approach is feature-oriented, which provides a strong descriptive and explanatory power compared to deep learning techniques. We identify and engineer various linguistic, lexical, and syntactic features that can potentially be media bias indicators. Our resource collection is the most complete within the media bias research area to the best of our knowledge. We evaluate all of our features in various combinations and retrieve their possible importance both for future research and for the task in general. We also evaluate various possible Machine Learning approaches with all of our features. XGBoost, a decision tree implementation, yields the best results. Our approach achieves an F1-score of 0.43, a precision of 0.29, a recall of 0.77, and a ROC AUC of 0.79, which outperforms current media bias detection methods based on features. We propose future improvements, discuss the perspectives of the feature-based approach and a combination of neural networks and deep learning with our current system.



中文翻译:

使用语言和面向上下文的功能自动识别新闻文章中的偏见诱导词

媒体对公众对事件的认知具有重大影响,因此,媒体呈现事件的方式可能会改变公众的观念和观点。可以在新闻文章中引入偏见的一种方法是更改​​单词选择。由于高度依赖上下文并且缺乏大规模的金标准数据集,因此这种形式的偏见很难自动识别。在本文中,我们为媒体偏见研究提供了一个原型而强大且多样化的数据集。它由代表各种媒体偏见实例的1,700条语句组成,并包含用于在单词和句子级别识别媒体偏见的标签。与现有研究相比,我们的数据结合了参与者的人口统计学,政治意识形态以及他们对媒体的总体看法的背景信息。根据我们的数据,我们还提出了一种自动检测新闻文章中引起偏见的单词的方法。我们的方法是面向特征的,与深度学习技术相比,它提供了强大的描述和解释能力。我们确定并设计各种语言,词汇和句法功能,这些功能可能是媒体偏向指标。据我们所知,我们的资源收集是媒体偏向研究领域中最完整的资源。我们以各种组合评估我们的所有功能,并检索它们对于未来研究和总体任务的可能重要性。我们还将利用我们的所有功能评估各种可能的机器学习方法。XGBoost(决策树实现)可产生最佳结果。我们的方法实现了 我们还提出了一种自动检测新闻文章中引起偏见的单词的方法。我们的方法是面向特征的,与深度学习技术相比,它提供了强大的描述和解释能力。我们确定并设计各种语言,词汇和句法功能,这些功能可能是媒体偏向指标。据我们所知,我们的资源收集是媒体偏向研究领域中最完整的资源。我们以各种组合评估我们的所有功能,并检索它们对于未来研究和总体任务的可能重要性。我们还将利用我们的所有功能评估各种可能的机器学习方法。XGBoost(决策树实现)可产生最佳结果。我们的方法实现了 我们还提出了一种自动检测新闻文章中引起偏见的单词的方法。我们的方法是面向特征的,与深度学习技术相比,它提供了强大的描述和解释能力。我们确定并设计各种语言,词汇和句法功能,这些功能可能是媒体偏向指标。据我们所知,我们的资源收集是媒体偏向研究领域中最完整的资源。我们以各种组合评估我们的所有功能,并检索它们对于未来研究和总体任务的可能重要性。我们还将利用我们的所有功能评估各种可能的机器学习方法。XGBoost(决策树实现)可产生最佳结果。我们的方法实现了 与深度学习技术相比,它提供了强大的描述和解释能力。我们确定并设计各种语言,词汇和句法功能,这些功能可能是媒体偏向指标。据我们所知,我们的资源收集是媒体偏向研究领域中最完整的资源。我们以各种组合评估我们的所有功能,并检索它们对于未来研究和总体任务的可能重要性。我们还将利用我们的所有功能评估各种可能的机器学习方法。XGBoost(决策树实现)可产生最佳结果。我们的方法实现了 与深度学习技术相比,它提供了强大的描述和解释能力。我们确定并设计各种语言,词汇和句法功能,这些功能可能是媒体偏向指标。据我们所知,我们的资源收集是媒体偏向研究领域中最完整的资源。我们以各种组合评估我们的所有功能,并检索它们对于未来研究和总体任务的可能重要性。我们还将利用我们的所有功能评估各种可能的机器学习方法。XGBoost(决策树实现)可产生最佳结果。我们的方法实现了 据我们所知,我们的资源收集是媒体偏向研究领域中最完整的资源。我们以各种组合评估我们的所有功能,并检索它们对于未来研究和总体任务的可能重要性。我们还将利用我们的所有功能评估各种可能的机器学习方法。XGBoost(决策树实现)可产生最佳结果。我们的方法实现了 据我们所知,我们的资源收集是媒体偏向研究领域中最完整的资源。我们以各种组合评估我们的所有功能,并检索它们对于未来研究和总体任务的可能重要性。我们还将利用我们的所有功能评估各种可能的机器学习方法。XGBoost(决策树实现)可产生最佳结果。我们的方法实现了F1个得分为0.43,精度为0.29,召回率为0.77,ROC AUC为0.79,优于基于特征的当前媒体偏差检测方法。我们提出了未来的改进,讨论了基于特征的方法的观点以及将神经网络和深度学习与我们当前的系统相结合的方法。

更新日期:2021-02-11
down
wechat
bug