当前位置: X-MOL 学术J. Am. Stat. Assoc. › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
Balancing Inferential Integrity and Disclosure Risk Via Model Targeted Masking and Multiple Imputation
Journal of the American Statistical Association ( IF 3.7 ) Pub Date : 2021-05-04 , DOI: 10.1080/01621459.2021.1909597
Bei Jiang 1 , Adrian E. Raftery 2 , Russell J. Steele 3 , Naisyin Wang 4
Affiliation  

Abstract

There is a growing expectation that data collected by government-funded studies should be openly available to ensure research reproducibility, which also increases concerns about data privacy. A strategy to protect individuals’ identity is to release multiply imputed (MI) synthetic datasets with masked sensitivity values. However, information loss or incorrectly specified imputation models can weaken or invalidate the inferences obtained from the MI-datasets. We propose a new masking framework with a data-augmentation (DA) component and a tuning mechanism that balances protecting identity disclosure against preserving data utility. Applying it to a restricted-use Canadian Scleroderma Research Group (CSRG) dataset, we found that this DA-MI strategy achieved a 0% identity disclosure risk and preserved all inferential conclusions. It yielded 95% confidence intervals (CIs) that had overlaps of 98.5% (95.5%) on average with the CIs constructed using the full, unmasked CSRG dataset in a work-disability (interstitial lung disease) study. The CI-overlaps were lower for several other methods considered, ranging from 73.9% to 91.9% on average with the lowest value being 28.1%; such low CI-overlaps further led to some incorrect inferential conclusions. These findings indicate that the DA-MI masking framework facilitates sharing of useful research data while protecting participants’ identities. Supplementary materials for this article, including a standardized description of the materials available for reproducing the work, are available as an online supplement.



中文翻译:

通过模型靶向掩蔽和多重插补平衡推理完整性和披露风险

摘要

人们越来越期望政府资助的研究收集的数据应该公开可用,以确保研究的可重复性,这也增加了对数据隐私的担忧。保护个人身份的一种策略是发布具有掩蔽灵敏度值的多重插补 (MI) 合成数据集。但是,信息丢失或错误指定的插补模型可能会削弱或使从 MI 数据集获得的推论无效。我们提出了一个新的掩蔽框架,其中包含数据增强 (DA) 组件和平衡保护身份披露与保留数据效用的调整机制。将其应用于限制使用的加拿大硬皮病研究小组 (CSRG) 数据集,我们发现这种 DA-MI 策略实现了 0% 的身份披露风险并保留了所有推断性结论。它产生了 95% 的置信区间 (CI),平均重叠率为 98.5% (95.5%),而 CI 在工作残疾(间质性肺病)研究中使用完整的、未屏蔽的 CSRG 数据集构建。所考虑的其他几种方法的 CI 重叠较低,平均为 73.9% 至 91.9%,最低值为 28.1%;如此低的 CI 重叠进一步导致了一些不正确的推断结论。这些发现表明,DA-MI 屏蔽框架有助于共享有用的研究数据,同时保护参与者的身份。本文的补充材料,包括可用于复制作品的材料的标准化描述,可作为在线补充获得。工作障碍(间质性肺病)研究中的未屏蔽 CSRG 数据集。所考虑的其他几种方法的 CI 重叠较低,平均为 73.9% 至 91.9%,最低值为 28.1%;如此低的 CI 重叠进一步导致了一些不正确的推断结论。这些发现表明,DA-MI 屏蔽框架有助于共享有用的研究数据,同时保护参与者的身份。本文的补充材料,包括可用于复制作品的材料的标准化描述,可作为在线补充获得。工作障碍(间质性肺病)研究中的未屏蔽 CSRG 数据集。所考虑的其他几种方法的 CI 重叠较低,平均为 73.9% 至 91.9%,最低值为 28.1%;如此低的 CI 重叠进一步导致了一些不正确的推断结论。这些发现表明,DA-MI 屏蔽框架有助于共享有用的研究数据,同时保护参与者的身份。本文的补充材料,包括可用于复制作品的材料的标准化描述,可作为在线补充获得。如此低的 CI 重叠进一步导致了一些不正确的推断结论。这些发现表明,DA-MI 屏蔽框架有助于共享有用的研究数据,同时保护参与者的身份。本文的补充材料,包括可用于复制作品的材料的标准化描述,可作为在线补充获得。如此低的 CI 重叠进一步导致了一些不正确的推断结论。这些发现表明,DA-MI 屏蔽框架有助于共享有用的研究数据,同时保护参与者的身份。本文的补充材料,包括可用于复制作品的材料的标准化描述,可作为在线补充获得。

更新日期:2021-05-04
down
wechat
bug