A comprehensive social media data processing and analytics architecture by using big data platforms: a case study of twitter flood-risk messages,Earth Science Informatics

当前位置： X-MOL 学术 › Earth Sci. Inform. › 论文详情

Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)

A comprehensive social media data processing and analytics architecture by using big data platforms: a case study of twitter flood-risk messages
Earth Science Informatics ( IF 2.7 ) Pub Date : 2021-03-11 , DOI: 10.1007/s12145-021-00601-w
Michal Podhoranyi ₁

Affiliation

The main objective of the article is to propose an advanced architecture and workflow based on Apache Hadoop and Apache Spark big data platforms. The primary purpose of the presented architecture is collecting, storing, processing, and analysing intensive data from social media streams. This paper presents how the proposed architecture and data workflow can be applied to analyse Tweets with a specific flood topic. The secondary objective, trying to describe the flood alert situation by using only Tweet messages and exploring the informative potential of such data is demonstrated as well. The predictive machine learning approach based on Bayes Theorem was utilized to classify flood and no flood messages. For this study, approximately 100,000 Twitter messages were processed and analysed. Messages were related to the flooding domain and collected over a period of 5 days (14 May – 18 May 2018). Spark application was developed to run data processing commands automatically and to generate the appropriate output data. Results confirmed the advantages of many well-known features of Spark and Hadoop in social media data processing. It was noted that such technologies are prepared to deal with social media data streams, but there are still challenges that one has to take into account. Based on the flood tweet analysis, it was observed that Twitter messages with some considerations are informative enough to be used to estimate general flood alert situations in particular regions. Text analysis techniques proved that Twitter messages contain valuable flood-spatial information.

中文翻译：

使用大数据平台的综合社交媒体数据处理和分析架构：推特洪水风险消息的案例研究

本文的主要目的是提出一种基于 Apache Hadoop 和 Apache Spark 大数据平台的高级架构和工作流程。所呈现架构的主要目的是收集、存储、处理和分析来自社交媒体流的密集数据。本文介绍了如何应用所提出的架构和数据工作流来分析具有特定洪水主题的推文。次要目标，试图通过仅使用推文消息来描述洪水警报情况并探索此类数据的信息潜力也得到了证明。基于贝叶斯定理的预测机器学习方法被用来对洪水和无洪水信息进行分类。在这项研究中，处理和分析了大约 100,000 条 Twitter 消息。消息与泛洪域相关，收集时间为 5 天（2018 年 5 月 14 日至 5 月 18 日）。Spark 应用程序被开发用于自动运行数据处理命令并生成适当的输出数据。结果证实了 Spark 和 Hadoop 的许多众所周知的特性在社交媒体数据处理方面的优势。有人指出，此类技术已准备好处理社交媒体数据流，但仍有一些挑战需要考虑。根据洪水推文分析，观察到带有一些考虑因素的推特消息足够丰富，可用于估计特定地区的一般洪水警报情况。文本分析技术证明 Twitter 消息包含有价值的洪水空间信息。Spark 应用程序被开发用于自动运行数据处理命令并生成适当的输出数据。结果证实了 Spark 和 Hadoop 的许多众所周知的特性在社交媒体数据处理方面的优势。有人指出，此类技术已准备好处理社交媒体数据流，但仍有一些挑战需要考虑。根据洪水推文分析，观察到带有一些考虑因素的推特消息足够丰富，可用于估计特定地区的一般洪水警报情况。文本分析技术证明 Twitter 消息包含有价值的洪水空间信息。Spark 应用程序被开发用于自动运行数据处理命令并生成适当的输出数据。结果证实了 Spark 和 Hadoop 的许多众所周知的特性在社交媒体数据处理方面的优势。有人指出，此类技术已准备好处理社交媒体数据流，但仍有一些挑战需要考虑。根据洪水推文分析，观察到带有一些考虑因素的推特消息足够丰富，可用于估计特定地区的一般洪水警报情况。文本分析技术证明 Twitter 消息包含有价值的洪水空间信息。结果证实了 Spark 和 Hadoop 的许多众所周知的特性在社交媒体数据处理方面的优势。有人指出，此类技术已准备好处理社交媒体数据流，但仍有一些挑战需要考虑。根据洪水推文分析，观察到带有一些考虑因素的推特消息足够丰富，可用于估计特定地区的一般洪水警报情况。文本分析技术证明 Twitter 消息包含有价值的洪水空间信息。结果证实了 Spark 和 Hadoop 的许多众所周知的特性在社交媒体数据处理方面的优势。有人指出，此类技术已准备好处理社交媒体数据流，但仍有一些挑战需要考虑。根据洪水推文分析，观察到带有一些考虑因素的推特消息足够丰富，可用于估计特定地区的一般洪水警报情况。文本分析技术证明 Twitter 消息包含有价值的洪水空间信息。据观察，带有一些考虑因素的 Twitter 消息的信息量足以用于估计特定地区的一般洪水警报情况。文本分析技术证明 Twitter 消息包含有价值的洪水空间信息。据观察，带有一些考虑因素的 Twitter 消息的信息量足以用于估计特定地区的一般洪水警报情况。文本分析技术证明 Twitter 消息包含有价值的洪水空间信息。

更新日期：2021-03-12

点击分享查看原文

点击收藏

公开下载

阅读更多本刊最新论文本刊介绍/投稿指南11