当前位置: X-MOL 学术Biostatistics › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
Surrogate-guided sampling designs for classification of rare outcomes from electronic medical records data
Biostatistics ( IF 2.1 ) Pub Date : 2020-08-13 , DOI: 10.1093/biostatistics/kxaa028
W Katherine Tan 1 , Patrick J Heagerty 1
Affiliation  

Scalable and accurate identification of specific clinical outcomes has been enabled by machine-learning applied to electronic medical record systems. The development of classification models requires the collection of a complete labeled data set, where true clinical outcomes are obtained by human expert manual review. For example, the development of natural language processing algorithms requires the abstraction of clinical text data to obtain outcome information necessary for training models. However, if the outcome is rare then simple random sampling results in very few cases and insufficient information to develop accurate classifiers. Since large scale detailed abstraction is often expensive, time-consuming, and not feasible, more efficient strategies are needed. Under such resource constrained settings, we propose a class of enrichment sampling designs, where selection for abstraction is stratified by auxiliary variables related to the true outcome of interest. Stratified sampling on highly specific variables results in targeted samples that are more enriched with cases, which we show translates to increased model discrimination and better statistical learning performance. We provide mathematical details and simulation evidence that links sampling designs to their resulting prediction model performance. We discuss the impact of our proposed sampling on both model training and validation. Finally, we illustrate the proposed designs for outcome label collection and subsequent machine-learning, using radiology report text data from the Lumbar Imaging with Reporting of Epidemiology study.

中文翻译:

替代品指导的抽样设计,用于根据电子病历数据对罕见结果进行分类

通过将机器学习应用于电子病历系统,可以对具体的临床结果进行可扩展且准确的识别。分类模型的开发需要收集完整的标记数据集,在这里可以通过人工专家审查获得真实的临床结果。例如,自然语言处理算法的开发需要抽象临床文本数据以获得训练模型所需的结果信息。但是,如果结果很少见,那么在极少数情况下会进行简单的随机抽样,而信息不足以开发准确的分类器。由于大规模的详细抽象通常是昂贵,费时且不可行的,因此需要更有效的策略。在这种资源受限的设置下,我们提出了一类富集采样设计,其中抽象的选择由与实际感兴趣的结果相关的辅助变量分层。对高度特定的变量进行分层抽样会导致针对性样本的案例更加丰富,我们证明这转化为增加的模型判别力和更好的统计学习性能。我们提供了数学细节和仿真证据,可以将抽样设计与其预测模型的性能联系起来。我们讨论了我们建议的抽样对模型训练和验证的影响。最后,我们使用腰椎成像与流行病学研究的放射学报告文本数据,说明了用于结果标签收集和后续机器学习的拟议设计。其中抽象的选择是通过与实际感兴趣的结果相关的辅助变量进行分层的。对高度特定的变量进行分层抽样会导致针对性样本的案例更加丰富,我们证明这转化为增加的模型判别力和更好的统计学习性能。我们提供了数学细节和仿真证据,可以将抽样设计与其预测模型的性能联系起来。我们讨论了我们建议的抽样对模型训练和验证的影响。最后,我们使用腰椎成像与流行病学研究报告的放射学报告文本数据,说明了用于结果标签收集和后续机器学习的拟议设计。其中抽象的选择是通过与实际感兴趣的结果相关的辅助变量进行分层的。对高度特定的变量进行分层抽样会导致针对性样本的案例更加丰富,我们证明这转化为增加的模型判别力和更好的统计学习性能。我们提供了数学细节和仿真证据,可以将抽样设计与其预测模型的性能联系起来。我们讨论了我们建议的抽样对模型训练和验证的影响。最后,我们使用腰椎成像与流行病学研究的放射学报告文本数据,说明了用于结果标签收集和后续机器学习的拟议设计。对高度特定的变量进行分层抽样会导致针对性样本的案例更加丰富,我们证明这转化为增加的模型判别力和更好的统计学习性能。我们提供了数学细节和仿真证据,可以将抽样设计与其预测模型的性能联系起来。我们讨论了我们建议的抽样对模型训练和验证的影响。最后,我们使用腰椎成像与流行病学研究的放射学报告文本数据,说明了用于结果标签收集和后续机器学习的拟议设计。对高度特定的变量进行分层抽样会导致针对性样本的案例更加丰富,我们证明这转化为增加的模型判别力和更好的统计学习性能。我们提供了数学细节和仿真证据,可以将抽样设计与其预测模型的性能联系起来。我们讨论了我们建议的抽样对模型训练和验证的影响。最后,我们使用腰椎成像与流行病学研究的放射学报告文本数据,说明了用于结果标签收集和后续机器学习的拟议设计。我们提供了数学细节和仿真证据,可以将抽样设计与其预测模型的性能联系起来。我们讨论了我们建议的抽样对模型训练和验证的影响。最后,我们使用腰椎成像与流行病学研究报告的放射学报告文本数据,说明了用于结果标签收集和后续机器学习的拟议设计。我们提供了数学细节和仿真证据,可以将抽样设计与其预测模型的性能联系起来。我们讨论了我们建议的抽样对模型训练和验证的影响。最后,我们使用腰椎成像与流行病学研究的放射学报告文本数据,说明了用于结果标签收集和后续机器学习的拟议设计。
更新日期:2020-08-14
down
wechat
bug