当前位置:
X-MOL 学术
›
arXiv.cs.SI
›
论文详情
Our official English website, www.x-mol.net, welcomes your
feedback! (Note: you will need to create a separate account there.)
Surveillance of COVID-19 Pandemic using Social Media: A Reddit Study in North Carolina
arXiv - CS - Social and Information Networks Pub Date : 2021-06-07 , DOI: arxiv-2106.04515 Christopher Whitfield, Yang Liu, Mohad Anwar
arXiv - CS - Social and Information Networks Pub Date : 2021-06-07 , DOI: arxiv-2106.04515 Christopher Whitfield, Yang Liu, Mohad Anwar
Coronavirus disease (COVID-19) pandemic has changed various aspects of
people's lives and behaviors. At this stage, there are no other ways to control
the natural progression of the disease than adopting mitigation strategies such
as wearing masks, watching distance, and washing hands. Moreover, at this time
of social distancing, social media plays a key role in connecting people and
providing a platform for expressing their feelings. In this study, we tap into
social media to surveil the uptake of mitigation and detection strategies, and
capture issues and concerns about the pandemic. In particular, we explore the
research question, "how much can be learned regarding the public uptake of
mitigation strategies and concerns about COVID-19 pandemic by using natural
language processing on Reddit posts?" After extracting COVID-related posts from
the four largest subreddit communities of North Carolina over six months, we
performed NLP-based preprocessing to clean the noisy data. We employed a custom
Named-entity Recognition (NER) system and a Latent Dirichlet Allocation (LDA)
method for topic modeling on a Reddit corpus. We observed that 'mask', 'flu',
and 'testing' are the most prevalent named-entities for "Personal Protective
Equipment", "symptoms", and "testing" categories, respectively. We also
observed that the most discussed topics are related to testing, masks, and
employment. The mitigation measures are the most prevalent theme of discussion
across all subreddits.
中文翻译:
使用社交媒体监测 COVID-19 大流行:北卡罗来纳州的 Reddit 研究
冠状病毒病 (COVID-19) 大流行已经改变了人们生活和行为的各个方面。在现阶段,除了采取戴口罩、看远距离、洗手等缓解策略外,没有其他方法可以控制疾病的自然发展。此外,在这个社会疏远的时期,社交媒体在联系人们和提供表达情感的平台方面发挥着关键作用。在这项研究中,我们利用社交媒体来监控缓解和检测策略的采用,并捕捉有关大流行的问题和担忧。特别是,我们探索了一个研究问题,“通过在 Reddit 帖子上使用自然语言处理,可以了解多少公众对缓解策略的采用和对 COVID-19 大流行的担忧?” 在六个月内从北卡罗来纳州四个最大的 subreddit 社区中提取与 COVID 相关的帖子后,我们执行了基于 NLP 的预处理来清理嘈杂的数据。我们采用自定义命名实体识别 (NER) 系统和潜在狄利克雷分配 (LDA) 方法对 Reddit 语料库进行主题建模。我们观察到,“口罩”、“流感”和“测试”分别是“个人防护设备”、“症状”和“测试”类别中最常见的命名实体。我们还观察到,讨论最多的话题与测试、口罩和就业有关。缓解措施是所有 subreddits 中最普遍的讨论主题。我们执行了基于 NLP 的预处理来清理噪声数据。我们采用自定义命名实体识别 (NER) 系统和潜在狄利克雷分配 (LDA) 方法对 Reddit 语料库进行主题建模。我们观察到,“口罩”、“流感”和“测试”分别是“个人防护设备”、“症状”和“测试”类别中最常见的命名实体。我们还观察到,讨论最多的话题与测试、口罩和就业有关。缓解措施是所有 subreddits 中最普遍的讨论主题。我们执行了基于 NLP 的预处理来清理噪声数据。我们采用自定义命名实体识别 (NER) 系统和潜在狄利克雷分配 (LDA) 方法对 Reddit 语料库进行主题建模。我们观察到,“口罩”、“流感”和“测试”分别是“个人防护设备”、“症状”和“测试”类别中最常见的命名实体。我们还观察到,讨论最多的话题与测试、口罩和就业有关。缓解措施是所有 subreddits 中最普遍的讨论主题。分别是“个人防护设备”、“症状”和“测试”类别中最普遍的命名实体。我们还观察到,讨论最多的话题与测试、口罩和就业有关。缓解措施是所有 subreddits 中最普遍的讨论主题。分别是“个人防护设备”、“症状”和“测试”类别中最普遍的命名实体。我们还观察到,讨论最多的话题与测试、口罩和就业有关。缓解措施是所有 subreddits 中最普遍的讨论主题。
更新日期:2021-06-09
中文翻译:
使用社交媒体监测 COVID-19 大流行:北卡罗来纳州的 Reddit 研究
冠状病毒病 (COVID-19) 大流行已经改变了人们生活和行为的各个方面。在现阶段,除了采取戴口罩、看远距离、洗手等缓解策略外,没有其他方法可以控制疾病的自然发展。此外,在这个社会疏远的时期,社交媒体在联系人们和提供表达情感的平台方面发挥着关键作用。在这项研究中,我们利用社交媒体来监控缓解和检测策略的采用,并捕捉有关大流行的问题和担忧。特别是,我们探索了一个研究问题,“通过在 Reddit 帖子上使用自然语言处理,可以了解多少公众对缓解策略的采用和对 COVID-19 大流行的担忧?” 在六个月内从北卡罗来纳州四个最大的 subreddit 社区中提取与 COVID 相关的帖子后,我们执行了基于 NLP 的预处理来清理嘈杂的数据。我们采用自定义命名实体识别 (NER) 系统和潜在狄利克雷分配 (LDA) 方法对 Reddit 语料库进行主题建模。我们观察到,“口罩”、“流感”和“测试”分别是“个人防护设备”、“症状”和“测试”类别中最常见的命名实体。我们还观察到,讨论最多的话题与测试、口罩和就业有关。缓解措施是所有 subreddits 中最普遍的讨论主题。我们执行了基于 NLP 的预处理来清理噪声数据。我们采用自定义命名实体识别 (NER) 系统和潜在狄利克雷分配 (LDA) 方法对 Reddit 语料库进行主题建模。我们观察到,“口罩”、“流感”和“测试”分别是“个人防护设备”、“症状”和“测试”类别中最常见的命名实体。我们还观察到,讨论最多的话题与测试、口罩和就业有关。缓解措施是所有 subreddits 中最普遍的讨论主题。我们执行了基于 NLP 的预处理来清理噪声数据。我们采用自定义命名实体识别 (NER) 系统和潜在狄利克雷分配 (LDA) 方法对 Reddit 语料库进行主题建模。我们观察到,“口罩”、“流感”和“测试”分别是“个人防护设备”、“症状”和“测试”类别中最常见的命名实体。我们还观察到,讨论最多的话题与测试、口罩和就业有关。缓解措施是所有 subreddits 中最普遍的讨论主题。分别是“个人防护设备”、“症状”和“测试”类别中最普遍的命名实体。我们还观察到,讨论最多的话题与测试、口罩和就业有关。缓解措施是所有 subreddits 中最普遍的讨论主题。分别是“个人防护设备”、“症状”和“测试”类别中最普遍的命名实体。我们还观察到,讨论最多的话题与测试、口罩和就业有关。缓解措施是所有 subreddits 中最普遍的讨论主题。