当前位置: X-MOL 学术J. Transp. Geogr. › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
The impact of privacy protection measures on the utility of crowdsourced cycling data
Journal of Transport Geography ( IF 5.7 ) Pub Date : 2021-03-25 , DOI: 10.1016/j.jtrangeo.2021.103020
Varun Raturi , Jinhyun Hong , David Philip McArthur , Mark Livingston

The use of new forms of data in the transport research domain is rapidly gaining popularity. However, these data come with specific challenges and one of the major concerns is maintaining the privacy of data subjects. One widely used approach to anonymise the data is to apply binning. Recently, data from activity-tracking applications like Strava has been utilised to study and analyse active travel. Due to privacy concerns, Strava has started providing data in a discretised format from July 2018. In this study, we aim to analyse the impact of the binning criteria on the utility of the crowdsourced data by using Strava data from 2013 to 2016 for the city of Glasgow. We applied the Strava binning criteria on the original dataset at three different temporal aggregations (i.e., Hourly, Daily and Monthly) and conducted different analyses to examine its impacts. First, we compared manual cycling counts with original and binned cycling counts from Strava data. Second, net-errors were calculated by comparing original and binned cycling counts from Strava data. Third, we estimated spatial autocorrelation statistics based on original and binned Strava counts and investigated the extent to which research outcomes change because of the binning approach. Our results confirmed significant amount of information loss. Worryingly, we also show that conclusions reached by previous studies could have been reversed if the new specification of the data had been used. We outline here what precautions researchers and planners should take when working with the binned data.



中文翻译:

隐私保护措施对众包自行车数据的效用的影响

在运输研究领域中使用新形式的数据正在迅速普及。但是,这些数据面临特定的挑战,主要关注之一是维护数据主体的隐私。一种广泛使用的匿名数据处理方法是应用合并。最近,来自活动跟踪应用程序(例如Strava)的数据已用于研究和分析主动出行。由于隐私方面的考虑,Strava从2018年7月开始以离散格式提供数据。在本研究中,我们旨在通过使用2013年至2016年该市的Strava数据来分析分类标准对众包数据的效用的影响格拉斯哥。我们在三种不同的时间汇总(即每小时,每日和每月),并进行了不同的分析以检查其影响。首先,我们将手动循环计数与Strava数据中原始循环计数和分箱计数进行了比较。其次,通过比较Strava数据的原始计数值和合并计数值来计算净误差。第三,我们根据原始和装箱的Strava计数估算空间自相关统计量,并研究由于装箱方法而导致研究结果变化的程度。我们的结果证实了大量信息丢失。令人担忧的是,我们还表明,如果使用了新的数据说明,以前的研究得出的结论可能会被推翻。我们在这里概述了研究人员和计划人员在使用合并数据时应采取的预防措施。我们将手动自行车计数与Strava数据中的原始自行车计数和装箱自行车计数进行了比较。其次,通过比较Strava数据的原始计数值和合并计数值来计算净误差。第三,我们根据原始和装箱的Strava计数估算空间自相关统计量,并研究由于装箱方法而导致研究结果变化的程度。我们的结果证实了大量信息丢失。令人担忧的是,我们还表明,如果使用了新的数据说明,以前的研究得出的结论可能会被推翻。我们在这里概述了研究人员和计划人员在使用合并数据时应采取的预防措施。我们将手动自行车计数与Strava数据中的原始自行车计数和装箱自行车计数进行了比较。其次,通过比较Strava数据的原始计数值和合并计数值来计算净误差。第三,我们根据原始和装箱的Strava计数估算空间自相关统计量,并研究由于装箱方法而导致研究结果变化的程度。我们的结果证实了大量信息丢失。令人担忧的是,我们还表明,如果使用新的数据规范,以前的研究得出的结论可能会被推翻。我们在这里概述了研究人员和计划人员在使用合并数据时应采取的预防措施。我们根据原始和装箱的Strava计数估算了空间自相关统计量,并研究了由于装箱方法而导致的研究结果变化的程度。我们的结果证实了大量信息丢失。令人担忧的是,我们还表明,如果使用了新的数据说明,以前的研究得出的结论可能会被推翻。我们在这里概述了研究人员和计划人员在使用合并数据时应采取的预防措施。我们根据原始和装箱的Strava计数估算了空间自相关统计量,并研究了由于装箱方法而导致的研究结果变化的程度。我们的结果证实了大量信息丢失。令人担忧的是,我们还表明,如果使用了新的数据说明,以前的研究得出的结论可能会被推翻。我们在这里概述了研究人员和计划人员在使用合并数据时应采取的预防措施。我们还表明,如果使用新的数据规范,以前的研究得出的结论可能会被推翻。我们在这里概述了研究人员和计划人员在使用合并数据时应采取的预防措施。我们还表明,如果使用新的数据规范,以前的研究得出的结论可能会被推翻。我们在这里概述了研究人员和计划人员在使用合并数据时应采取的预防措施。

更新日期:2021-03-25
down
wechat
bug