当前位置: X-MOL 学术Orphanet J. Rare Dis. › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
Machine learning application for development of a data-driven predictive model able to investigate quality of life scores in a rare disease.
Orphanet Journal of Rare Diseases ( IF 3.4 ) Pub Date : 2020-02-12 , DOI: 10.1186/s13023-020-1305-0
Ottavia Spiga 1 , Vittoria Cicaloni 1, 2 , Cosimo Fiorini 3 , Alfonso Trezza 1 , Anna Visibelli 1, 4 , Lia Millucci 1 , Giulia Bernardini 1 , Andrea Bernini 1 , Barbara Marzocchi 1, 5 , Daniela Braconi 1 , Filippo Prischi 6 , Annalisa Santucci 1
Affiliation  

BACKGROUND Alkaptonuria (AKU) is an ultra-rare autosomal recessive disease caused by a mutation in the homogentisate 1,2-dioxygenase (HGD) gene. One of the main obstacles in studying AKU, and other ultra-rare diseases, is the lack of a standardized methodology to assess disease severity or response to treatment. Quality of Life scores (QoL) are a reliable way to monitor patients' clinical condition and health status. QoL scores allow to monitor the evolution of diseases and assess the suitability of treatments by taking into account patients' symptoms, general health status and care satisfaction. However, more comprehensive tools to study a complex and multi-systemic disease like AKU are needed. In this study, a Machine Learning (ML) approach was implemented with the aim to perform a prediction of QoL scores based on clinical data deposited in the ApreciseKUre, an AKU- dedicated database. METHOD Data derived from 129 AKU patients have been firstly examined through a preliminary statistical analysis (Pearson correlation coefficient) to measure the linear correlation between 11 QoL scores. The variable importance in QoL scores prediction of 110 ApreciseKUre biomarkers has been then calculated using XGBoost, with K-nearest neighbours algorithm (k-NN) approach. Due to the limited number of data available, this model has been validated using surrogate data analysis. RESULTS We identified a direct correlation of 6 (age, Serum Amyloid A, Chitotriosidase, Advanced Oxidation Protein Products, S-thiolated proteins and Body Mass Index) out of 110 biomarkers with the QoL health status, in particular with the KOOS (Knee injury and Osteoarthritis Outcome Score) symptoms (Relative Absolute Error (RAE) 0.25). The error distribution of surrogate-model (RAE 0.38) was unequivocally higher than the true-model one (RAE of 0.25), confirming the consistency of our dataset. Our data showed that inflammation, oxidative stress, amyloidosis and lifestyle of patients correlates with the QoL scores for physical status, while no correlation between the biomarkers and patients' mental health was present (RAE 1.1). CONCLUSIONS This proof of principle study for rare diseases confirms the importance of database, allowing data management and analysis, which can be used to predict more effective treatments.

中文翻译:

机器学习应用程序用于开发数据驱动的预测模型,该模型能够调查罕见疾病中的生活质量得分。

背景技术碱性磷酸酶尿症(AKU)是一种由尿黑酸1,2-二加氧酶(HGD)基因突变引起的常染色体隐性遗传病。研究AKU和其他超罕见疾病的主要障碍之一是缺乏评估疾病严重程度或对治疗反应的标准化方法。生活质量评分(QoL)是监测患者临床状况和健康状况的可靠方法。QoL分数可通过考虑患者的症状,总体健康状况和护理满意度来监测疾病的进展并评估治疗的适用性。但是,需要更全面的工具来研究像AKU这样的复杂多系统疾病。在这个研究中,实施了机器学习(ML)方法,旨在根据AKU专用数据库ApreciseKUre中存储的临床数据对QoL分数进行预测。方法首先通过初步统计分析(Pearson相关系数)检查了来自129名AKU患者的数据,以测量11个QoL评分之间的线性相关性。然后使用XGBoost和K近邻算法(k-NN)计算了110种ApeciseKUre生物标志物的QoL分数预测中的变量重要性。由于可用数据数量有限,因此该模型已使用替代数据分析进行了验证。结果我们确定了6(年龄,血清淀粉样蛋白A,壳三糖苷酶,高级氧化蛋白产品,具有QoL健康状态的110个生物标志物中的S-硫醇化蛋白和体重指数),特别是具有KOOS(膝关节损伤和骨关节炎结果评分)症状(相对绝对误差(RAE)0.25)的生物标志物。替代模型的误差分布(RAE 0.38)明显高于真实模型之一(RAE为0.25),证实了我们数据集的一致性。我们的数据表明,患者的炎症,氧化应激,淀粉样变性和生活方式与身体状况的QoL评分相关,而生物标志物与患者心理健康之间没有相关性(RAE 1.1)。结论这项关于罕见病的原理研究证明证实了数据库的重要性,可以进行数据管理和分析,从而可以预测更有效的治疗方法。尤其是KOOS(膝关节损伤和骨关节炎结果评分)症状(相对绝对误差(RAE)0.25)。替代模型的误差分布(RAE 0.38)明显高于真实模型之一(RAE为0.25),证实了我们数据集的一致性。我们的数据表明,患者的炎症,氧化应激,淀粉样变性和生活方式与身体状况的QoL评分相关,而生物标志物与患者心理健康之间没有相关性(RAE 1.1)。结论这项关于罕见病的原理研究证明证实了数据库的重要性,可以进行数据管理和分析,从而可以预测更有效的治疗方法。尤其是KOOS(膝关节损伤和骨关节炎结果评分)症状(相对绝对误差(RAE)0.25)。替代模型的误差分布(RAE 0.38)明显高于真实模型之一(RAE为0.25),证实了我们数据集的一致性。我们的数据表明,患者的炎症,氧化应激,淀粉样变性和生活方式与身体状况的QoL评分相关,而生物标志物与患者心理健康之间没有相关性(RAE 1.1)。结论这项关于罕见病的原理研究证明证实了数据库的重要性,可以进行数据管理和分析,从而可以预测更有效的治疗方法。替代模型的误差分布(RAE 0.38)明显高于真实模型之一(RAE为0.25),证实了我们数据集的一致性。我们的数据表明,患者的炎症,氧化应激,淀粉样变性和生活方式与身体状况的QoL评分相关,而生物标志物与患者心理健康之间没有相关性(RAE 1.1)。结论这项关于罕见病的原理研究证明证实了数据库的重要性,可以进行数据管理和分析,从而可以预测更有效的治疗方法。替代模型的误差分布(RAE 0.38)明显高于真实模型之一(RAE为0.25),证实了我们数据集的一致性。我们的数据表明,患者的炎症,氧化应激,淀粉样变性和生活方式与身体状况的QoL评分相关,而生物标志物与患者心理健康之间没有相关性(RAE 1.1)。结论这项关于罕见病的原理研究证明证实了数据库的重要性,可以进行数据管理和分析,从而可以预测更有效的治疗方法。而生物标志物与患者心理健康之间没有相关性(RAE 1.1)。结论这项关于罕见病的原理研究证明证实了数据库的重要性,可以进行数据管理和分析,从而可以预测更有效的治疗方法。而生物标志物与患者心理健康之间没有相关性(RAE 1.1)。结论这项关于罕见病的原理研究证明证实了数据库的重要性,可以进行数据管理和分析,从而可以预测更有效的治疗方法。
更新日期:2020-02-12
down
wechat
bug