当前位置: X-MOL 学术Am. J. Hum. Genet. › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
Making the Most of Clumping and Thresholding for Polygenic Scores.
American Journal of Human Genetics ( IF 9.8 ) Pub Date : 2019-11-21 , DOI: 10.1016/j.ajhg.2019.11.001
Florian Privé 1 , Bjarni J Vilhjálmsson 2 , Hugues Aschard 3 , Michael G B Blum 4
Affiliation  

Polygenic prediction has the potential to contribute to precision medicine. Clumping and thresholding (C+T) is a widely used method to derive polygenic scores. When using C+T, several p value thresholds are tested to maximize predictive ability of the derived polygenic scores. Along with this p value threshold, we propose to tune three other hyper-parameters for C+T. We implement an efficient way to derive thousands of different C+T scores corresponding to a grid over four hyper-parameters. For example, it takes a few hours to derive 123K different C+T scores for 300K individuals and 1M variants using 16 physical cores. We find that optimizing over these four hyper-parameters improves the predictive performance of C+T in both simulations and real data applications as compared to tuning only the p value threshold. A particularly large increase can be noted when predicting depression status, from an AUC of 0.557 (95% CI: [0.544-0.569]) when tuning only the p value threshold to an AUC of 0.592 (95% CI: [0.580-0.604]) when tuning all four hyper-parameters we propose for C+T. We further propose stacked clumping and thresholding (SCT), a polygenic score that results from stacking all derived C+T scores. Instead of choosing one set of hyper-parameters that maximizes prediction in some training set, SCT learns an optimal linear combination of all C+T scores by using an efficient penalized regression. We apply SCT to eight different case-control diseases in the UK biobank data and find that SCT substantially improves prediction accuracy with an average AUC increase of 0.035 over standard C+T.

中文翻译:

充分利用聚类和阈值进行多基因评分。

多基因预测有可能为精密医学做出贡献。聚类和阈值化(C + T)是一种广泛用于获得多基因得分的方法。使用C + T时,将测试多个p值阈值,以最大程度地提高派生多基因得分的预测能力。连同此p值阈值,我们建议调整C + T的其他三个超参数。我们实现了一种有效的方法来导出与四个超参数上的网格相对应的数千个不同的C + T分数。例如,使用16个物理核心为300K个人和1M变体得出123K不同的C + T分数需要花费几个小时。我们发现,与仅调整p值阈值相比,在这四个超参数上进行优化可以提高C + T在模拟和实际数据应用中的预测性能。当预测抑郁状态时,可以注意到特别大的增加,从仅将p值阈值调整为AUC为0.592(95%CI:[0.580-0.604]时的AUC为0.557(95%CI:[0.544-0.569])。 )在调整所有四个超参数时,我们建议使用C + T。我们进一步提出了堆积聚类和阈值化(SCT),这是一种通过堆叠所有导出的C + T分数而得到的多基因分数。SCT通过使用有效的罚回归来学习所有C + T分数的最佳线性组合,而不是选择一组最大化某些训练集中的预测的超参数。我们将SCT应用于英国生物库数据中的八种不同的病例对照疾病,发现SCT大大提高了预测准确性,平均AUC较标准C + T增加了0.035。[0.544-0.569])在调整所有四个超参数时仅将p值阈值调整为AUC为0.592(95%CI:[0.580-0.604])时,我们建议使用C + T。我们进一步提出了堆积聚类和阈值化(SCT),这是一种通过堆叠所有导出的C + T分数而得到的多基因分数。SCT通过使用有效的罚回归来学习所有C + T分数的最佳线性组合,而不是选择一组最大化某些训练集中的预测的超参数。我们将SCT应用于英国生物库数据中的八种不同的病例对照疾病,发现SCT大大提高了预测准确性,平均AUC较标准C + T增加了0.035。[0.544-0.569])在调整所有四个超参数时仅将p值阈值调整为AUC为0.592(95%CI:[0.580-0.604])时,我们建议使用C + T。我们进一步提出了堆积聚类和阈值化(SCT),这是一种通过堆叠所有导出的C + T分数而得到的多基因分数。SCT通过使用有效的罚回归来学习所有C + T分数的最佳线性组合,而不是选择一组最大化某些训练集中的预测的超参数。我们将SCT应用于英国生物库数据中的八种不同的病例对照疾病,发现SCT大大提高了预测准确性,平均AUC较标准C + T增加了0.035。我们进一步提出了堆积聚类和阈值化(SCT),这是一种通过堆叠所有导出的C + T分数而得到的多基因分数。SCT通过使用有效的罚回归来学习所有C + T分数的最佳线性组合,而不是选择一组最大化某些训练集中的预测的超参数。我们将SCT应用于英国生物库数据中的八种不同的病例对照疾病,发现SCT大大提高了预测准确性,平均AUC较标准C + T增加了0.035。我们进一步提出了堆积聚类和阈值化(SCT),这是一种通过堆叠所有导出的C + T分数而得到的多基因分数。SCT通过使用有效的罚回归来学习所有C + T分数的最佳线性组合,而不是选择一组最大化某些训练集中的预测的超参数。我们将SCT应用于英国生物库数据中的八种不同的病例对照疾病,发现SCT大大提高了预测准确性,平均AUC较标准C + T增加了0.035。
更新日期:2019-11-22
down
wechat
bug