当前位置: X-MOL 学术Brief. Bioinform. › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
A cross-study analysis of drug response prediction in cancer cell lines
Briefings in Bioinformatics ( IF 9.5 ) Pub Date : 2021-09-08 , DOI: 10.1093/bib/bbab356
Fangfang Xia 1 , Jonathan Allen 2 , Prasanna Balaprakash 1 , Thomas Brettin 1 , Cristina Garcia-Cardona 3 , Austin Clyde 1, 4 , Judith Cohn 3 , James Doroshow 5 , Xiaotian Duan 4 , Veronika Dubinkina 6 , Yvonne Evrard 7 , Ya Ju Fan 2 , Jason Gans 3 , Stewart He 2 , Pinyi Lu 7 , Sergei Maslov 6 , Alexander Partin 1 , Maulik Shukla 1 , Eric Stahlberg 7 , Justin M Wozniak 1 , Hyunseung Yoo 1 , George Zaki 7 , Yitan Zhu 1 , Rick Stevens 1, 4
Affiliation  

To enable personalized cancer treatment, machine learning models have been developed to predict drug response as a function of tumor and drug features. However, most algorithm development efforts have relied on cross-validation within a single study to assess model accuracy. While an essential first step, cross-validation within a biological data set typically provides an overly optimistic estimate of the prediction performance on independent test sets. To provide a more rigorous assessment of model generalizability between different studies, we use machine learning to analyze five publicly available cell line-based data sets: National Cancer Institute 60, ancer Therapeutics Response Portal (CTRP), Genomics of Drug Sensitivity in Cancer, Cancer Cell Line Encyclopedia and Genentech Cell Line Screening Initiative (gCSI). Based on observed experimental variability across studies, we explore estimates of prediction upper bounds. We report performance results of a variety of machine learning models, with a multitasking deep neural network achieving the best cross-study generalizability. By multiple measures, models trained on CTRP yield the most accurate predictions on the remaining testing data, and gCSI is the most predictable among the cell line data sets included in this study. With these experiments and further simulations on partial data, two lessons emerge: (1) differences in viability assays can limit model generalizability across studies and (2) drug diversity, more than tumor diversity, is crucial for raising model generalizability in preclinical screening.

中文翻译:

癌细胞系药物反应预测的交叉研究分析

为了实现个性化的癌症治疗,已经开发了机器学习模型来预测药物反应作为肿瘤和药物特征的函数。然而,大多数算法开发工作都依赖于单个研究中的交叉验证来评估模型的准确性。虽然是必不可少的第一步,但生物数据集中的交叉验证通常会对独立测试集的预测性能提供过于乐观的估计。为了对不同研究之间的模型普遍性提供更严格的评估,我们使用机器学习来分析五个公开可用的基于细胞系的数据集:National Cancer Institute 60、ancer Therapeutics Response Portal (CTRP)、Genomics of Drug Sensitivity in Cancer、Cancer细胞系百科全书和基因泰克细胞系筛选计划 (gCSI)。基于在研究中观察到的实验变异性,我们探索了预测上限的估计。我们报告了各种机器学习模型的性能结果,其中多任务深度神经网络实现了最佳的交叉研究泛化性。通过多种测量,在 CTRP 上训练的模型对剩余的测试数据产生了最准确的预测,而 gCSI 是本研究中包含的细胞系数据集中最可预测的。通过这些实验和对部分数据的进一步模拟,出现了两个教训:(1) 活力测定的差异会限制模型在研究中的普遍性;(2) 药物多样性,而不是肿瘤多样性,对于提高临床前筛选中的模型普遍性至关重要。我们报告了各种机器学习模型的性能结果,其中多任务深度神经网络实现了最佳的交叉研究泛化性。通过多种测量,在 CTRP 上训练的模型对剩余的测试数据产生了最准确的预测,而 gCSI 是本研究中包含的细胞系数据集中最可预测的。通过这些实验和对部分数据的进一步模拟,出现了两个教训:(1) 活力测定的差异会限制模型在研究中的普遍性;(2) 药物多样性,而不是肿瘤多样性,对于提高临床前筛选中的模型普遍性至关重要。我们报告了各种机器学习模型的性能结果,其中多任务深度神经网络实现了最佳的交叉研究泛化性。通过多种测量,在 CTRP 上训练的模型对剩余的测试数据产生了最准确的预测,而 gCSI 是本研究中包含的细胞系数据集中最可预测的。通过这些实验和对部分数据的进一步模拟,出现了两个教训:(1) 活力测定的差异会限制模型在研究中的普遍性;(2) 药物多样性,而不是肿瘤多样性,对于提高临床前筛选中的模型普遍性至关重要。在 CTRP 上训练的模型对剩余的测试数据产生了最准确的预测,而 gCSI 是本研究中包含的细胞系数据集中最可预测的。通过这些实验和对部分数据的进一步模拟,出现了两个教训:(1) 活力测定的差异会限制模型在研究中的普遍性;(2) 药物多样性,而不是肿瘤多样性,对于提高临床前筛选中的模型普遍性至关重要。在 CTRP 上训练的模型对剩余的测试数据产生了最准确的预测,而 gCSI 是本研究中包含的细胞系数据集中最可预测的。通过这些实验和对部分数据的进一步模拟,出现了两个教训:(1) 活力测定的差异会限制模型在研究中的普遍性;(2) 药物多样性,而不是肿瘤多样性,对于提高临床前筛选中的模型普遍性至关重要。
更新日期:2021-09-08
down
wechat
bug