当前位置: X-MOL 学术Ophthalmology › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
Using a Deep Learning Algorithm and Integrated Gradients Explanation to Assist Grading for Diabetic Retinopathy.
Ophthalmology ( IF 13.1 ) Pub Date : 2018-12-13 , DOI: 10.1016/j.ophtha.2018.11.016
Rory Sayres 1 , Ankur Taly 1 , Ehsan Rahimy 2 , Katy Blumer 1 , David Coz 1 , Naama Hammel 1 , Jonathan Krause 1 , Arunachalam Narayanaswamy 1 , Zahra Rastegar 1 , Derek Wu 1 , Shawn Xu 3 , Scott Barb 4 , Anthony Joseph 5 , Michael Shumski 6 , Jesse Smith 7 , Arjun B Sood 8 , Greg S Corrado 1 , Lily Peng 1 , Dale R Webster 1
Affiliation  

PURPOSE To understand the impact of deep learning diabetic retinopathy (DR) algorithms on physician readers in computer-assisted settings. DESIGN Evaluation of diagnostic technology. PARTICIPANTS One thousand seven hundred ninety-six retinal fundus images from 1612 diabetic patients. METHODS Ten ophthalmologists (5 general ophthalmologists, 4 retina specialists, 1 retina fellow) read images for DR severity based on the International Clinical Diabetic Retinopathy disease severity scale in each of 3 conditions: unassisted, grades only, or grades plus heatmap. Grades-only assistance comprised a histogram of DR predictions (grades) from a trained deep-learning model. For grades plus heatmap, we additionally showed explanatory heatmaps. MAIN OUTCOME MEASURES For each experiment arm, we computed sensitivity and specificity of each reader and the algorithm for different levels of DR severity against an adjudicated reference standard. We also measured accuracy (exact 5-class level agreement and Cohen's quadratically weighted κ), reader-reported confidence (5-point Likert scale), and grading time. RESULTS Readers graded more accurately with model assistance than without for the grades-only condition (P < 0.001). Grades plus heatmaps improved accuracy for patients with DR (P < 0.001), but reduced accuracy for patients without DR (P = 0.006). Both forms of assistance increased readers' sensitivity moderate-or-worse DR: unassisted: mean, 79.4% [95% confidence interval (CI), 72.3%-86.5%]; grades only: mean, 87.5% [95% CI, 85.1%-89.9%]; grades plus heatmap: mean, 88.7% [95% CI, 84.9%-92.5%] without a corresponding drop in specificity (unassisted: mean, 96.6% [95% CI, 95.9%-97.4%]; grades only: mean, 96.1% [95% CI, 95.5%-96.7%]; grades plus heatmap: mean, 95.5% [95% CI, 94.8%-96.1%]). Algorithmic assistance increased the accuracy of retina specialists above that of the unassisted reader or model alone; and increased grading confidence and grading time across all readers. For most cases, grades plus heatmap was only as effective as grades only. Over the course of the experiment, grading time decreased across all conditions, although most sharply for grades plus heatmap. CONCLUSIONS Deep learning algorithms can improve the accuracy of, and confidence in, DR diagnosis in an assisted read setting. They also may increase grading time, although these effects may be ameliorated with experience.

中文翻译:

使用深度学习算法和集成的梯度解释来辅助糖尿病性视网膜病变的评分。

目的了解计算机辅助设置中的深度学习型糖尿病视网膜病变(DR)算法对医师读者的影响。设计诊断技术评估。参与者来自1612名糖尿病患者的176眼视网膜底图像。方法10名眼科医生(5名普通眼科医生,4名视网膜专家,1名视网膜研究员)根据国际糖尿病性视网膜病疾病严重程度评分在以下3种情况中的每一种下读取DR严重程度的图像:无辅助,仅等级或等级加热图。仅成绩帮助包括经过训练的深度学习模型的DR预测(成绩)直方图。对于成绩加热图,我们还显示了说明性热图。主要观察指标对于每个实验组,我们计算了每个阅读器的敏感性和特异性,以及针对不同参考水平的DR严重性水平的算法。我们还测量了准确性(精确的5级水平协议和Cohen的二次加权κ),读者报告的置信度(5点Likert量表)和评分时间。结果与仅使用成绩等级的情况相比,在没有模型成绩的情况下,读者的评分更为准确(P <0.001)。等级加热图提高了DR患者的准确性(P <0.001),但没有DR患者的准确性降低(P = 0.006)。两种形式的帮助均提高了读者的敏感度:中度或较差DR:未辅助:平均值:79.4%[95%置信区间(CI),72.3%-86.5%];仅等级:平均87.5%[95%CI,85.1%-89.9%];成绩加热图:平均值88.7%[95%CI,84.9%-92。5%],但特异性没有相应下降(无助:平均值为96.6%[95%CI,95.9%-97.4%];仅等级:平均值为96.1%[95%CI,95.5%-96.7%];等级加上热图:平均95.5%[95%CI,94.8%-96.1%]。通过算法辅助,视网膜专家的准确性比单独使用辅助阅读器或模型的准确性更高。并提高所有读者的评分信心和评分时间。在大多数情况下,成绩加热图仅与成绩有效。在实验过程中,尽管在等级和热图方面最为明显,但在所有条件下的分级时间都减少了。结论深度学习算法可以在辅助阅读设置中提高DR诊断的准确性和可信度。它们也可能增加分级时间,尽管经验会改善这些效果。6%[95%CI,95.9%-97.4%];仅等级:平均96.1%[95%CI,95.5%-96.7%];成绩加热图:平均值95.5%[95%CI,94.8%-96.1%]。通过算法辅助,视网膜专家的准确性比单独使用辅助阅读器或模型的准确性更高。并提高所有读者的评分信心和评分时间。在大多数情况下,成绩加热图仅与成绩有效。在实验过程中,尽管在等级和热图方面最为明显,但在所有条件下的分级时间都减少了。结论深度学习算法可以在辅助阅读设置中提高DR诊断的准确性和可信度。它们也可能增加分级时间,尽管经验会改善这些效果。6%[95%CI,95.9%-97.4%];仅等级:平均96.1%[95%CI,95.5%-96.7%];成绩加热图:平均值95.5%[95%CI,94.8%-96.1%]。通过算法辅助,视网膜专家的准确性比单独使用辅助阅读器或模型的准确性更高。并提高所有读者的评分信心和评分时间。在大多数情况下,成绩加热图仅与成绩有效。在实验过程中,尽管在等级和热图方面最为明显,但在所有条件下的分级时间都减少了。结论深度学习算法可以在辅助阅读设置中提高DR诊断的准确性和可信度。它们也可能增加分级时间,尽管经验会改善这些效果。8%-96.1%])。通过算法辅助,视网膜专家的准确性比单独使用辅助阅读器或模型的准确性更高。并提高所有读者的评分信心和评分时间。在大多数情况下,成绩加热图仅与成绩有效。在实验过程中,尽管在等级和热图方面最为明显,但在所有条件下的分级时间都减少了。结论深度学习算法可以在辅助阅读设置中提高DR诊断的准确性和可信度。它们也可能增加分级时间,尽管经验会改善这些效果。8%-96.1%])。通过算法辅助,视网膜专家的准确性比单独使用辅助阅读器或模型的准确性更高。并提高所有读者的评分信心和评分时间。在大多数情况下,成绩加热图仅与成绩有效。在实验过程中,尽管在等级和热图方面最为明显,但在所有条件下的分级时间都减少了。结论深度学习算法可以在辅助阅读设置中提高DR诊断的准确性和可信度。它们也可能增加分级时间,尽管经验会改善这些效果。成绩加热图仅与成绩一样有效。在实验过程中,尽管在等级和热图方面最为明显,但在所有条件下的分级时间都减少了。结论深度学习算法可以在辅助阅读设置中提高DR诊断的准确性和可信度。它们也可能增加分级时间,尽管经验会改善这些效果。成绩加热图仅与成绩一样有效。在实验过程中,尽管在等级和热图方面最为明显,但在所有条件下的分级时间都减少了。结论深度学习算法可以在辅助阅读设置中提高DR诊断的准确性和可信度。它们也可能增加分级时间,尽管经验会改善这些效果。
更新日期:2018-12-13
down
wechat
bug