当前位置: X-MOL 学术Biostatistics › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
Inferring mobility measures from GPS traces with missing data.
Biostatistics ( IF 2.1 ) Pub Date : 2018-10-26 , DOI: 10.1093/biostatistics/kxy059
Ian Barnett 1 , Jukka-Pekka Onnela 2
Affiliation  

With increasing availability of smartphones with Global Positioning System (GPS) capabilities, large-scale studies relating individual-level mobility patterns to a wide variety of patient-centered outcomes, from mood disorders to surgical recovery, are becoming a reality. Similar past studies have been small in scale and have provided wearable GPS devices to subjects. These devices typically collect mobility traces continuously without significant gaps in the data, and consequently the problem of data missingness has been safely ignored. Leveraging subjects' own smartphones makes it possible to scale up and extend the duration of these types of studies, but at the same time introduces a substantial challenge: to preserve a smartphone's battery, GPS can be active only for a small portion of the time, frequently less than $10\%$, leading to a tremendous missing data problem. We introduce a principled statistical approach, based on weighted resampling of the observed data, to impute the missing mobility traces, which we then summarize using different mobility measures. We compare the strengths of our approach to linear interpolation (LI), a popular approach for dealing with missing data, both analytically and through simulation of missingness for empirical data. We conclude that our imputation approach better mirrors human mobility both theoretically and over a sample of GPS mobility traces from 182 individuals in the Geolife data set, where, relative to LI, imputation resulted in a 10-fold reduction in the error averaged across all mobility features.

中文翻译:

从GPS迹线推断缺少数据的移动性度量。

随着具有全球定位系统(GPS)功能的智能手机的可用性不断提高,将个人水平的移动方式与从情绪障碍到手术康复的各种以患者为中心的结果相关联的大规模研究已成为现实。过去类似的研究规模很小,并且为受试者提供了可穿戴GPS设备。这些设备通常会连续收集移动轨迹,而不会在数据中留下明显的间隙,因此,数据丢失的问题已被安全地忽略了。利用受试者自己的智能手机可以扩大并延长这类研究的持续时间,但是同时带来了巨大的挑战:要保护智能手机的电池,GPS只能在很小的时间内处于活动状态,通常少于$ 10 \%$,导致巨大的数据丢失问题。我们基于观察到的数据的加权重采样,引入一种有原则的统计方法,以估算丢失的迁移率迹线,然后使用不同的迁移率度量进行汇总。我们比较了线性插值法(LI)的优势,线性插值法是一种常见的处理缺失数据的方法,既可以通过分析也可以通过对经验数据的缺失进行模拟。我们得出结论,我们的推算方法在理论上和在Geolife数据集中来自182个个体的GPS机动轨迹的样本上,都更好地反映了人类的机动性,相对于LI,推算导致所有机动性的平均误差降低了10倍特征。基于观测数据的加权重采样,以估算丢失的迁移率迹线,然后我们使用不同的迁移率度量进行汇总。我们比较了线性插值法(LI)的优势,线性插值法是一种常见的处理缺失数据的方法,既可以通过分析也可以通过对经验数据的缺失进行模拟。我们得出的结论是,我们的推算方法在理论上和在Geolife数据集中来自182个个体的GPS机动轨迹的样本上都更好地反映了人类的机动性,相对于LI,推算导致所有机动性的平均误差降低了10倍特征。基于观测数据的加权重采样,以估算丢失的迁移率迹线,然后我们使用不同的迁移率度量进行汇总。我们比较了线性插值法(LI)的优势,线性插值法是一种常见的处理缺失数据的方法,既可以通过分析也可以通过对经验数据的缺失进行模拟。我们得出结论,我们的推算方法在理论上和在Geolife数据集中来自182个个体的GPS机动轨迹的样本上,都更好地反映了人类的机动性,相对于LI,推算导致所有机动性的平均误差降低了10倍特征。一种流行的方法,用于分析和通过模拟经验数据的缺失来处理缺失数据。我们得出结论,我们的推算方法在理论上和在Geolife数据集中来自182个个体的GPS机动轨迹的样本上,都更好地反映了人类的机动性,相对于LI,推算导致所有机动性的平均误差降低了10倍特征。一种流行的方法,用于分析和通过模拟经验数据的缺失来处理缺失数据。我们得出结论,我们的推算方法在理论上和在Geolife数据集中来自182个个体的GPS机动轨迹的样本上,都更好地反映了人类的机动性,相对于LI,推算导致所有机动性的平均误差降低了10倍特征。
更新日期:2020-04-17
down
wechat
bug