当前位置: X-MOL 学术Mach. Learn. › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
Imputation of clinical covariates in time series
Machine Learning ( IF 4.3 ) Pub Date : 2020-11-10 , DOI: 10.1007/s10994-020-05923-2
Dimitris Bertsimas , Agni Orfanoudaki , Colin Pawlowski

Missing data is a common problem in longitudinal datasets which include multiple instances of the same individual observed at different points in time. We introduce a new approach, MedImpute, for imputing missing clinical covariates in multivariate panel data. This approach integrates patient specific information into an optimization formulation that can be adjusted for different imputation algorithms. We present the formulation for a K -nearest neighbors model and derive a corresponding scalable first-order method med.knn . Our algorithm provides imputations for datasets with both continuous and categorical features and observations occurring at arbitrary points in time. In computational experiments on three real-world clinical datasets, we test its performance on imputation and downstream predictive tasks, varying the percentage of missing data, the number of observations per patient, and the mechanism of missing data. The proposed method improves upon both the imputation accuracy and downstream predictive performance relative to the best of the benchmark imputation methods considered. We show that this edge is consistently present both in longitudinal and electronic health records datasets as well as in binary classification and regression settings. On computational experiments on synthetic data, we test the scalability of this algorithm on large datasets, and we show that an efficient method for hyperparameter tuning scales to datasets with 10,000’s of observations and 100’s of covariates while maintaining high imputation accuracy.

中文翻译:

时间序列中临床协变量的插补

缺失数据是纵向数据集中的一个常见问题,其中包括在不同时间点观察到的同一个人的多个实例。我们引入了一种新方法 MedImpute,用于在多变量面板数据中估算缺失的临床协变量。这种方法将患者特定信息整合到一个优化公式中,该公式可以针对不同的插补算法进行调整。我们提出了 K 最近邻模型的公式,并推导出相应的可扩展一阶方法 med.knn 。我们的算法为具有连续和分类特征以及在任意时间点发生的观察的数据集提供插补。在三个真实世界临床数据集的计算实验中,我们测试了它在插补和下游预测任务上的性能,改变了缺失数据的百分比,每个患者的观察次数,以及缺失数据的机制。相对于所考虑的最佳基准插补方法,所提出的方法提高了插补准确性和下游预测性能。我们表明,该边缘始终存在于纵向和电子健康记录数据集以及二元分类和回归设置中。在合成数据的计算实验中,我们测试了该算法在大型数据集上的可扩展性,我们证明了一种有效的超参数调整方法可以扩展到具有 10,000 个观测值和 100 个协变量的数据集,同时保持高插补精度。相对于所考虑的最佳基准插补方法,所提出的方法提高了插补准确性和下游预测性能。我们表明,该边缘始终存在于纵向和电子健康记录数据集以及二元分类和回归设置中。在合成数据的计算实验中,我们测试了该算法在大型数据集上的可扩展性,我们证明了一种有效的超参数调整方法可以扩展到具有 10,000 个观测值和 100 个协变量的数据集,同时保持高插补精度。相对于所考虑的最佳基准插补方法,所提出的方法提高了插补准确性和下游预测性能。我们表明,该边缘始终存在于纵向和电子健康记录数据集以及二元分类和回归设置中。在合成数据的计算实验中,我们测试了该算法在大型数据集上的可扩展性,我们证明了一种有效的超参数调整方法可以扩展到具有 10,000 个观测值和 100 个协变量的数据集,同时保持高插补精度。我们表明,该边缘始终存在于纵向和电子健康记录数据集以及二元分类和回归设置中。在合成数据的计算实验中,我们测试了该算法在大型数据集上的可扩展性,我们证明了一种有效的超参数调整方法可以扩展到具有 10,000 个观测值和 100 个协变量的数据集,同时保持高插补精度。我们表明,该边缘始终存在于纵向和电子健康记录数据集以及二元分类和回归设置中。在合成数据的计算实验中,我们测试了该算法在大型数据集上的可扩展性,我们证明了一种有效的超参数调整方法可以扩展到具有 10,000 个观测值和 100 个协变量的数据集,同时保持高插补精度。
更新日期:2020-11-10
down
wechat
bug