当前位置: X-MOL 学术arXiv.cs.IR › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
A multi-modal approach towards mining social media data during natural disasters -- a case study of Hurricane Irma
arXiv - CS - Information Retrieval Pub Date : 2021-01-02 , DOI: arxiv-2101.00480
Somya D. Mohanty, Brown Biggers, Saed Sayedahmed, Nastaran Pourebrahim, Evan B. Goldstein, Rick Bunch, Guangqing Chi, Fereidoon Sadri, Tom P. McCoy, Arthur Cosby

Streaming social media provides a real-time glimpse of extreme weather impacts. However, the volume of streaming data makes mining information a challenge for emergency managers, policy makers, and disciplinary scientists. Here we explore the effectiveness of data learned approaches to mine and filter information from streaming social media data from Hurricane Irma's landfall in Florida, USA. We use 54,383 Twitter messages (out of 784K geolocated messages) from 16,598 users from Sept. 10 - 12, 2017 to develop 4 independent models to filter data for relevance: 1) a geospatial model based on forcing conditions at the place and time of each tweet, 2) an image classification model for tweets that include images, 3) a user model to predict the reliability of the tweeter, and 4) a text model to determine if the text is related to Hurricane Irma. All four models are independently tested, and can be combined to quickly filter and visualize tweets based on user-defined thresholds for each submodel. We envision that this type of filtering and visualization routine can be useful as a base model for data capture from noisy sources such as Twitter. The data can then be subsequently used by policy makers, environmental managers, emergency managers, and domain scientists interested in finding tweets with specific attributes to use during different stages of the disaster (e.g., preparedness, response, and recovery), or for detailed research.

中文翻译:

自然灾害期间用于挖掘社交媒体数据的多模式方法-以飓风艾玛为例

流媒体社交媒体提供了对极端天气影响的实时了解。然而,流数据的数量使挖掘信息成为紧急管理人员,政策制定者和学科科学家的挑战。在这里,我们探讨了数据学习方法从流媒体媒体数据中挖掘和过滤信息的有效性,这些流媒体数据来自飓风“艾玛”在美国佛罗里达州的登陆。我们使用2017年9月10日至12日来自16,598位用户的54,383条Twitter消息(在784K地理位置消息中)开发了4个独立模型来过滤相关数据:1)基于每个位置和时间的强迫条件的地理空间模型tweet; 2)用于包含图像的tweet的图像分类模型; 3)预测高音扬声器可靠性的用户模型; 4)确定文本是否与飓风艾玛有关的文本模型。所有四个模型都经过独立测试,可以结合使用,以基于每个子模型的用户定义阈值快速过滤和可视化推文。我们设想这种类型的过滤和可视化例程可以用作从嘈杂的源(例如Twitter)捕获数据的基本模型。然后,对于有兴趣查找具有特定属性的推文以供在灾难的不同阶段(例如,备灾,响应和恢复)使用或用于详细研究的决策者,环境经理,紧急事件经理和领域科学家而言,这些数据可随后使用。 。我们设想这种类型的过滤和可视化例程可以用作从嘈杂的源(例如Twitter)捕获数据的基本模型。然后,对于有兴趣查找具有特定属性的推文以供在灾难的不同阶段(例如,备灾,响应和恢复)使用或用于详细研究的决策者,环境经理,紧急事件经理和领域科学家而言,这些数据可随后使用。 。我们设想这种类型的过滤和可视化例程可以用作从嘈杂的源(例如Twitter)捕获数据的基本模型。然后,对于有兴趣查找具有特定属性的推文以供在灾难的不同阶段(例如,备灾,响应和恢复)使用或用于详细研究的决策者,环境经理,紧急事件经理和领域科学家而言,这些数据可随后使用。 。
更新日期:2021-01-05
down
wechat
bug