当前位置: X-MOL 学术J. Circuits Syst. Comput. › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
Extraction of Meaningful Information from Unstructured Clinical Notes Using Web Scraping
Journal of Circuits, Systems and Computers ( IF 0.9 ) Pub Date : 2022-09-14 , DOI: 10.1142/s021812662350041x
K. Sukanya Varshini 1 , R. Annie Uthra 1
Affiliation  

In the medical field, the clinical notes taken by the doctor, nurse, or medical practitioner are considered to be one of the most important medical documents. These documents hold information regarding the patient including the patient’s current condition, family history, disease, symptoms, medications, lab test reports, and other vital information. Despite these documents holding important information regarding the patients, they cannot be used as the data are unstructured. Organizing a huge amount of data without any mistakes is highly impossible for humans, so ignoring unstructured data is not advisable. Hence, to overcome this issue, the web scraping method is used to extract the clinical notes from the Medical Transcription (MT) samples which hold many transcripted clinical notes of various departments. In the proposed method, Natural Language Processing (NLP) is used to pre-process the data, and the variants of the Term Frequency-Inverse Document Frequency (TF-IDF)-based vector model are used for the feature selection, thus extracting the required data from the clinical notes. The performance measures including the accuracy, precision, recall and F1 score are used in the identification of disease, and the result obtained from the proposed system is compared with the best performing machine learning algorithms including the Logistic Regression, Multinomial Naive Bayes, Random Forest classifier and Linear SVC. The result obtained proves that the Random Forest Classifier obtained a higher accuracy of 90% when compared to the other algorithms.



中文翻译:

使用网络抓取从非结构化临床笔记中提取有意义的信息

在医学领域,医生、护士或执业医师所做的临床记录被认为是最重要的医疗文件之一。这些文件包含有关患者的信息,包括患者的当前状况、家族史、疾病、症状、药物、实验室测试报告和其他重要信息。尽管这些文件包含有关患者的重要信息,但由于数据是非结构化的,因此无法使用。组织大量数据而没有任何错误对人类来说是极不可能的,因此忽略非结构化数据是不可取的。因此,为了克服这个问题,使用网络抓取方法从医学转录 (MT) 样本中提取临床笔记,这些样本包含许多不同部门的临床笔记转录本。在提出的方法中,使用自然语言处理(NLP)对数据进行预处理,使用基于词频-逆文档频率(TF-IDF)的向量模型的变体进行特征选择,从而从临床中提取所需的数据笔记。包括准确率、精确率、召回率和 F1 分数在内的性能指标被用于疾病的识别,并将所提出的系统获得的结果与性能最佳的机器学习算法(包括逻辑回归、多项朴素贝叶斯、随机森林分类器)进行比较和线性SVC。获得的结果证明,与其他算法相比,随机森林分类器获得了 90% 的更高准确率。并且使用基于词频-逆文档频率(TF-IDF)的向量模型的变体进行特征选择,从而从临床笔记中提取所需的数据。包括准确率、精确率、召回率和 F1 分数在内的性能指标被用于疾病的识别,并将所提出的系统获得的结果与性能最佳的机器学习算法(包括逻辑回归、多项朴素贝叶斯、随机森林分类器)进行比较和线性SVC。获得的结果证明,与其他算法相比,随机森林分类器获得了 90% 的更高准确率。并且使用基于词频-逆文档频率(TF-IDF)的向量模型的变体进行特征选择,从而从临床笔记中提取所需的数据。包括准确率、精确率、召回率和 F1 分数在内的性能指标被用于疾病的识别,并将所提出的系统获得的结果与性能最佳的机器学习算法(包括逻辑回归、多项朴素贝叶斯、随机森林分类器)进行比较和线性SVC。获得的结果证明,与其他算法相比,随机森林分类器获得了 90% 的更高准确率。召回率和 F1 分数用于疾病的识别,并将所提出的系统获得的结果与性能最好的机器学习算法进行比较,包括逻辑回归、多项朴素贝叶斯、随机森林分类器和线性 SVC。获得的结果证明,与其他算法相比,随机森林分类器获得了 90% 的更高准确率。召回率和 F1 分数用于疾病的识别,并将所提出的系统获得的结果与性能最好的机器学习算法进行比较,包括逻辑回归、多项朴素贝叶斯、随机森林分类器和线性 SVC。获得的结果证明,与其他算法相比,随机森林分类器获得了 90% 的更高准确率。

更新日期:2022-09-14
down
wechat
bug