当前位置: X-MOL 学术Sci. Rep. › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
Genome-wide investigation of gene-cancer associations for the prediction of novel therapeutic targets in oncology.
Scientific Reports ( IF 3.8 ) Pub Date : 2020-07-01 , DOI: 10.1038/s41598-020-67846-1
Adrián Bazaga 1, 2 , Dan Leggate 2 , Hendrik Weisser 2
Affiliation  

A major cause of failed drug discovery programs is suboptimal target selection, resulting in the development of drug candidates that are potent inhibitors, but ineffective at treating the disease. In the genomics era, the availability of large biomedical datasets with genome-wide readouts has the potential to transform target selection and validation. In this study we investigate how computational intelligence methods can be applied to predict novel therapeutic targets in oncology. We compared different machine learning classifiers applied to the task of drug target classification for nine different human cancer types. For each cancer type, a set of “known” target genes was obtained and equally-sized sets of “non-targets” were sampled multiple times from the human protein-coding genes. Models were trained on mutation, gene expression (TCGA), and gene essentiality (DepMap) data. In addition, we generated a numerical embedding of the interaction network of protein-coding genes using deep network representation learning and included the results in the modeling. We assessed feature importance using a random forests classifier and performed feature selection based on measuring permutation importance against a null distribution. Our best models achieved good generalization performance based on the AUROC metric. With the best model for each cancer type, we ran predictions on more than 15,000 protein-coding genes to identify potential novel targets. Our results indicate that this approach may be useful to inform early stages of the drug discovery pipeline.



中文翻译:

全基因组研究的基因-癌症关联,以预测肿瘤学中的新型治疗靶标。

药物发现计划失败的主要原因是目标选择不理想,导致候选药物的开发成为有效的抑制剂,但对疾病的治疗无效。在基因组学时代,具有全基因组读数的大型生物医学数据集的可用性具有改变靶标选择和验证的潜力。在这项研究中,我们调查了如何将计算智能方法应用于预测肿瘤学中的新型治疗靶标。我们比较了用于9种不同人类癌症类型的药物目标分类任务的不同机器学习分类器。对于每种癌症类型,都获得了一组“已知”靶基因,并从人类蛋白质编码基因中多次采样了大小相等的“非靶”。对模型进行了突变,基因表达(TCGA),和基因必要性(DepMap)数据。此外,我们使用深度网络表示学习生成了蛋白质编码基因相互作用网络的数值嵌入,并将结果包括在建模中。我们使用随机森林分类器评估了特征重要性,并根据针对零分布的置换重要性进行了评估,从而进行了特征选择。我们的最佳模型基于AUROC指标获得了良好的泛化性能。利用每种癌症类型的最佳模型,我们对15,000多种蛋白质编码基因进行了预测,以识别潜在的新型靶标。我们的结果表明,这种方法可能有助于了解药物开发流程的早期阶段。我们使用深度网络表示学习生成了蛋白质编码基因相互作用网络的数值嵌入,并将结果包括在建模中。我们使用随机森林分类器评估了特征重要性,并根据针对零分布的置换重要性进行了评估,从而进行了特征选择。我们的最佳模型基于AUROC指标获得了良好的泛化性能。利用每种癌症类型的最佳模型,我们对15,000多种蛋白质编码基因进行了预测,以识别潜在的新型靶标。我们的结果表明,这种方法可能有助于了解药物开发流程的早期阶段。我们使用深度网络表示学习生成了蛋白质编码基因相互作用网络的数值嵌入,并将结果包括在建模中。我们使用随机森林分类器评估了特征重要性,并根据针对零分布的置换重要性进行了评估,从而进行了特征选择。我们的最佳模型基于AUROC指标获得了良好的泛化性能。利用每种癌症类型的最佳模型,我们对15,000多种蛋白质编码基因进行了预测,以识别潜在的新型靶标。我们的结果表明,这种方法可能有助于了解药物开发流程的早期阶段。我们使用随机森林分类器评估了特征重要性,并根据针对零分布的置换重要性进行了评估,从而进行了特征选择。我们的最佳模型基于AUROC指标获得了良好的泛化性能。利用每种癌症类型的最佳模型,我们对15,000多种蛋白质编码基因进行了预测,以识别潜在的新型靶标。我们的结果表明,这种方法可能有助于了解药物开发流程的早期阶段。我们使用随机森林分类器评估了特征重要性,并根据针对零分布的置换重要性进行了评估,从而进行了特征选择。我们的最佳模型基于AUROC指标获得了良好的泛化性能。利用每种癌症类型的最佳模型,我们对15,000多种蛋白质编码基因进行了预测,以识别潜在的新型靶标。我们的结果表明,这种方法可能有助于了解药物开发流程的早期阶段。

更新日期:2020-07-01
down
wechat
bug