当前位置: X-MOL 学术EPJ Data Sci. › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
Challenges when identifying migration from geo-located Twitter data
EPJ Data Science ( IF 3.6 ) Pub Date : 2021-01-07 , DOI: 10.1140/epjds/s13688-020-00254-7
Caitrin Armstrong , Ate Poorthuis , Matthew Zook , Derek Ruths , Thomas Soehl

Given the challenges in collecting up-to-date, comparable data on migrant populations the potential of digital trace data to study migration and migrants has sparked considerable interest among researchers and policy makers. In this paper we assess the reliability of one such data source that is heavily used within the research community: geolocated tweets. We assess strategies used in previous work to identify migrants based on their geolocation histories. We apply these approaches to infer the travel history of a set of Twitter users who regularly posted geolocated tweets between July 2012 and June 2015. In a second step we hand-code the entire tweet histories of a subset of the accounts identified as migrants by these methods. Upon close inspection very few of the accounts that are classified as migrants appear to be migrants in any conventional sense or international students. Rather we find these approaches identify other highly mobile populations such as frequent business or leisure travellers, or people who might best be described as “transnationals”. For demographic research that draws on this kind of data to generate estimates of migration flows this high mis-classification rate implies that findings are likely sensitive to the adjustment model used. For most research trying to use these data to study migrant populations, the data will be of limited utility. We suspect that increasing the correct classification rate substantially will not be easy and may introduce other biases.



中文翻译:

从地理位置Twitter数据中识别迁移时面临的挑战

鉴于收集有关移民人口的最新可比数据带来的挑战,数字跟踪数据研究移民和移民的潜力引起了研究人员和决策者的极大兴趣。在本文中,我们评估了在研究社区中大量使用的一种数据源的可靠性:地理定位推文。我们评估了先前工作中使用的策略,以根据移民的地理位置历史来识别移民。我们应用这些方法来推断一组Twitter用户的旅行历史记录,这些用户在2012年7月至2015年6月之间定期发布地理位置经过定位的推文。在第二步中,我们手动编码了被这些用户标识为移民的部分帐户的整个推文历史方法。在仔细检查后,几乎没有被归类为移民的账户似乎是任何常规意义上的移民或国际学生。相反,我们发现这些方法可以确定其他频繁活动的人群,例如经常出差或休闲旅行的人,或者最能形容为“跨国人士”的人。对于利用此类数据生成移民流量估算的人口统计研究,这种高误分类率意味着调查结果可能对所使用的调整模型敏感。对于大多数试图使用这些数据来研究移民人口的研究而言,这些数据的用途有限。我们怀疑,要提高正确的分类率实际上并不容易,并且可能会引入其他偏差。相反,我们发现这些方法可以确定其他频繁活动的人群,例如经常出差或休闲旅行的人,或者最能形容为“跨国人士”的人。对于利用此类数据生成移民流量估算的人口统计研究,这种高误分类率意味着调查结果可能对所使用的调整模型敏感。对于大多数试图使用这些数据来研究移民人口的研究而言,这些数据的用途有限。我们怀疑,要提高正确的分类率实际上并不容易,并且可能会引入其他偏差。相反,我们发现这些方法可以确定其他频繁活动的人群,例如经常出差或休闲旅行的人,或者最能形容为“跨国人士”的人。对于利用此类数据生成移民流量估算的人口统计研究,这种高误分类率意味着调查结果可能对所使用的调整模型敏感。对于大多数试图使用这些数据来研究移民人口的研究而言,这些数据的用途有限。我们怀疑,要提高正确的分类率实际上并不容易,并且可能会引入其他偏差。对于利用此类数据生成移民流量估算的人口统计研究,这种高误分类率意味着调查结果可能对所使用的调整模型敏感。对于大多数试图使用这些数据来研究移民人口的研究而言,这些数据的用途有限。我们怀疑,要提高正确的分类率实际上并不容易,并且可能会引入其他偏差。对于利用此类数据生成迁移流量估算的人口统计研究,这种高误分类率意味着调查结果可能对所使用的调整模型敏感。对于大多数试图使用这些数据来研究移民人口的研究而言,这些数据的用途有限。我们怀疑,要提高正确的分类率实际上并不容易,并且可能会引入其他偏差。

更新日期:2021-01-07
down
wechat
bug