当前位置: X-MOL 学术Int. J. Med. Inform. › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
Interpretable deep learning to map diagnostic texts to ICD-10 codes.
International Journal of Medical Informatics ( IF 3.7 ) Pub Date : 2019-08-25 , DOI: 10.1016/j.ijmedinf.2019.05.015
Aitziber Atutxa 1 , Arantza Díaz de Ilarraza 1 , Koldo Gojenola 1 , Maite Oronoz 1 , Olatz Perez-de-Viñaspre 1
Affiliation  

BACKGROUND Automatic extraction of morbid disease or conditions contained in Death Certificates is a critical process, useful for billing, epidemiological studies and comparison across countries. The fact that these clinical documents are written in regular natural language makes the automatic coding process difficult because, often, spontaneous terms diverge strongly from standard reference terminology such as the International Classification of Diseases (ICD). OBJECTIVE Our aim is to propose a general and multilingual approach to render Diagnostic Terms into the standard framework provided by the ICD. We have evaluated our proposal on a set of clinical texts written in French, Hungarian and Italian. METHODS ICD-10 encoding is a multi-class classification problem with an extensive (thousands) number of classes. After considering several approaches, we tackle our objective as a sequence-to-sequence task. According to current trends, we opted to use neural networks. We tested different types of neural architectures on three datasets in which Diagnostic Terms (DTs) have their ICD-10 codes associated. RESULTS AND CONCLUSIONS Our results give a new state-of-the art on multilingual ICD-10 coding, outperforming several alternative approaches, and showing the feasibility of automatic ICD-10 prediction obtaining an F-measure of 0.838, 0.963 and 0.952 for French, Hungarian and Italian, respectively. Additionally, the results are interpretable, providing experts with supporting evidence when confronted with coding decisions, as the model is able to show the alignments between the original text and each output code.

中文翻译:

可解释的深度学习,可将诊断文本映射到ICD-10代码。

背景技术自动提取死亡证明书中包含的病态疾病或病症是关键过程,可用于计费,流行病学研究以及各国间的比较。这些临床文档以常规自然语言编写的事实使自动编码过程变得困难,因为通常自发术语与诸如国际疾病分类(ICD)之类的标准参考术语存在很大差异。目的我们的目的是提出一种通用的多语言方法,以将诊断术语纳入ICD提供的标准框架中。我们已经对以法语,匈牙利语和意大利语撰写的一组临床文本进行了评估。方法ICD-10编码是一个多类别分类问题,具有大量(数千个)类别。在考虑了几种方法之后,我们将目标作为序列到序列的任务来解决。根据当前趋势,我们选择使用神经网络。我们在诊断术语(DT)关联了其ICD-10代码的三个数据集中测试了不同类型的神经体系结构。结果与结论我们的结果提供了多语言ICD-10编码的最新技术,胜过其他几种方法,并显示了自动ICD-10预测获得法文F值为0.838、0.963和0.952的可行性,匈牙利文和意大利文。此外,结果是可以解释的,在面对编码决策时,专家可以提供支持证据,因为该模型能够显示原始文本和每个输出代码之间的对齐方式。我们将目标作为序列到序列的任务来解决。根据当前趋势,我们选择使用神经网络。我们在诊断术语(DT)关联了其ICD-10代码的三个数据集中测试了不同类型的神经体系结构。结果与结论我们的结果提供了多语言ICD-10编码的最新技术,胜过其他几种方法,并显示了自动ICD-10预测获得法文F值为0.838、0.963和0.952的可行性,匈牙利文和意大利文。此外,结果是可以解释的,在面对编码决策时,专家可以提供支持证据,因为该模型能够显示原始文本和每个输出代码之间的对齐方式。我们将目标作为序列到序列的任务来解决。根据当前趋势,我们选择使用神经网络。我们在诊断术语(DT)关联了其ICD-10代码的三个数据集中测试了不同类型的神经体系结构。结果与结论我们的结果提供了多语言ICD-10编码的最新技术,胜过其他几种方法,并显示了自动ICD-10预测获得法文F值为0.838、0.963和0.952的可行性,匈牙利文和意大利文。此外,结果是可以解释的,在面对编码决策时,专家可以提供支持证据,因为该模型能够显示原始文本和每个输出代码之间的对齐方式。我们在诊断术语(DT)关联了其ICD-10代码的三个数据集中测试了不同类型的神经体系结构。结果与结论我们的结果提供了多语言ICD-10编码的最新技术,胜过其他几种方法,并显示了自动ICD-10预测获得法文F值为0.838、0.963和0.952的可行性,匈牙利文和意大利文。此外,结果是可以解释的,在面对编码决策时,专家可以提供支持证据,因为该模型能够显示原始文本和每个输出代码之间的对齐方式。我们在诊断术语(DT)关联了其ICD-10代码的三个数据集中测试了不同类型的神经体系结构。结果与结论我们的结果提供了多语言ICD-10编码的最新技术,胜过其他几种方法,并显示了自动ICD-10预测获得法文F值为0.838、0.963和0.952的可行性,匈牙利文和意大利文。此外,结果是可以解释的,在面对编码决策时,专家可以提供支持证据,因为该模型能够显示原始文本和每个输出代码之间的对齐方式。结果与结论我们的结果提供了多语言ICD-10编码的最新技术,胜过其他几种方法,并显示了自动ICD-10预测获得法文F值为0.838、0.963和0.952的可行性,匈牙利文和意大利文。此外,结果是可以解释的,在面对编码决策时,专家可以提供支持证据,因为该模型能够显示原始文本和每个输出代码之间的对齐方式。结果与结论我们的结果提供了多语言ICD-10编码的最新技术,胜过其他几种方法,并显示了自动ICD-10预测获得法文F值为0.838、0.963和0.952的可行性,匈牙利文和意大利文。此外,结果是可以解释的,在面对编码决策时,专家可以提供支持证据,因为该模型能够显示原始文本和每个输出代码之间的对齐方式。
更新日期:2019-11-01
down
wechat
bug