当前位置: X-MOL 学术Gigascience › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
The need to approximate the use-case in clinical machine learning.
GigaScience ( IF 9.2 ) Pub Date : 2017-05-01 , DOI: 10.1093/gigascience/gix019
Sohrab Saeb 1, 2 , Luca Lonini 2, 3 , Arun Jayaraman 2, 3 , David C Mohr 1 , Konrad P Kording 2
Affiliation  

The availability of smartphone and wearable sensor technology is leading to a rapid accumulation of human subject data, and machine learning is emerging as a technique to map those data into clinical predictions. As machine learning algorithms are increasingly used to support clinical decision making, it is vital to reliably quantify their prediction accuracy. Cross-validation (CV) is the standard approach where the accuracy of such algorithms is evaluated on part of the data the algorithm has not seen during training. However, for this procedure to be meaningful, the relationship between the training and the validation set should mimic the relationship between the training set and the dataset expected for the clinical use. Here we compared two popular CV methods: record-wise and subject-wise. While the subject-wise method mirrors the clinically relevant use-case scenario of diagnosis in newly recruited subjects, the record-wise strategy has no such interpretation. Using both a publicly available dataset and a simulation, we found that record-wise CV often massively overestimates the prediction accuracy of the algorithms. We also conducted a systematic review of the relevant literature, and found that this overly optimistic method was used by almost half of the retrieved studies that used accelerometers, wearable sensors, or smartphones to predict clinical outcomes. As we move towards an era of machine learning-based diagnosis and treatment, using proper methods to evaluate their accuracy is crucial, as inaccurate results can mislead both clinicians and data scientists.

中文翻译:

需要对临床机器学习中的用例进行近似估算。

智能手机和可穿戴传感器技术的可用性正在导致人类受试者数据的快速积累,并且机器学习作为一种将这些数据映射到临床预测中的技术正在兴起。随着机器学习算法越来越多地用于支持临床决策,可靠地量化其预测准确性至关重要。交叉验证(CV)是一种标准方法,其中根据算法在训练过程中未看到的部分数据来评估此类算法的准确性。但是,为了使此过程有意义,训练与验证集之间的关系应模仿训练集与临床预期使用的数据集之间的关系。在这里,我们比较了两种流行的简历方法:记录方式和主题方式。尽管按受试者的方法反映了新招募受试者的临床相关用例诊断情况,但按记录的策略却没有这种解释。通过使用公开可用的数据集和模拟,我们发现按记录的简历通常会大量高估算法的预测准确性。我们还对相关文献进行了系统回顾,发现几乎一半的检索研究都使用了这种过于乐观的方法,这些研究使用加速度计,可穿戴式传感器或智能手机来预测临床结果。随着我们迈入基于机器学习的诊断和治疗时代,使用正确的方法评估其准确性至关重要,因为不正确的结果可能会误导临床医生和数据科学家。记录策略没有这种解释。通过使用公开可用的数据集和模拟,我们发现按记录的简历通常会大量高估算法的预测准确性。我们还对相关文献进行了系统回顾,发现几乎一半的检索研究都使用了这种过于乐观的方法,这些研究使用加速度计,可穿戴式传感器或智能手机来预测临床结果。随着我们迈入基于机器学习的诊断和治疗时代,使用正确的方法评估其准确性至关重要,因为不正确的结果可能会误导临床医生和数据科学家。记录策略没有这种解释。通过使用公开可用的数据集和模拟,我们发现按记录的简历通常会大量高估算法的预测准确性。我们还对相关文献进行了系统回顾,发现几乎一半的检索研究都使用了这种过于乐观的方法,这些研究使用加速度计,可穿戴式传感器或智能手机来预测临床结果。随着我们迈入基于机器学习的诊断和治疗时代,使用正确的方法评估其准确性至关重要,因为不正确的结果可能会误导临床医生和数据科学家。我们发现,基于记录的CV通常会大量高估算法的预测准确性。我们还对相关文献进行了系统回顾,发现几乎一半的检索研究都使用了这种过于乐观的方法,这些研究使用加速度计,可穿戴式传感器或智能手机来预测临床结果。随着我们迈入基于机器学习的诊断和治疗时代,使用正确的方法评估其准确性至关重要,因为不正确的结果可能会误导临床医生和数据科学家。我们发现,基于记录的CV通常会大量高估算法的预测准确性。我们还对相关文献进行了系统回顾,发现几乎一半的检索研究都使用了这种过于乐观的方法,这些研究使用加速度计,可穿戴式传感器或智能手机来预测临床结果。随着我们迈入基于机器学习的诊断和治疗时代,使用正确的方法评估其准确性至关重要,因为不正确的结果可能会误导临床医生和数据科学家。
更新日期:2017-03-15
down
wechat
bug