当前位置: X-MOL 学术Methods › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
Statistical Selection of Biological Models for Genome-Wide Association Analyses
Methods ( IF 4.2 ) Pub Date : 2018-08-01 , DOI: 10.1016/j.ymeth.2018.05.019
Wenjian Bi , Guolian Kang , Stanley B. Pounds

Genome-wide association studies have discovered many biologically important associations of genes with phenotypes. Typically, genome-wide association analyses formally test the association of each genetic feature (SNP, CNV, etc) with the phenotype of interest and summarize the results with multiplicity-adjusted p-values. However, very small p-values only provide evidence against the null hypothesis of no association without indicating which biological model best explains the observed data. Correctly identifying a specific biological model may improve the scientific interpretation and can be used to more effectively select and design a follow-up validation study. Thus, statistical methodology to identify the correct biological model for a particular genotype-phenotype association can be very useful to investigators. Here, we propose a general statistical method to summarize how accurately each of five biological models (null, additive, dominant, recessive, co-dominant) represents the data observed for each variant in a GWAS study. We show that the new method stringently controls the false discovery rate and asymptotically selects the correct biological model. Simulations of two-stage discovery-validation studies show that the new method has these properties and that its validation power is similar to or exceeds that of simple methods that use the same statistical model for all SNPs. Example analyses of three data sets also highlight these advantages of the new method. An R package is freely available at www.stjuderesearch.org/site/depts/biostats/maew.

中文翻译:

用于全基因组关联分析的生物模型的统计选择

全基因组关联研究已经发现基因与表型之间的许多生物学上重要的关联。通常,全基因组关联分析正式测试每个遗传特征(SNP、CNV 等)与感兴趣的表型的关联,并用多重调整的 p 值总结结果。然而,非常小的 p 值仅提供反对无关联零假设的证据,而没有表明哪种生物模型最能解释观察到的数据。正确识别特定的生物模型可以改进科学解释,并可用于更有效地选择和设计后续验证研究。因此,确定特定基因型-表型关联的正确生物学模型的统计方法对研究人员非常有用。这里,我们提出了一种通用的统计方法来总结五种生物模型(无效、加性、显性、隐性、共显性)中的每一种如何准确地代表 GWAS 研究中每个变体观察到的数据。我们表明新方法严格控制错误发现率并渐近地选择正确的生物模型。两阶段发现-验证研究的模拟表明,新方法具有这些特性,并且其验证能力类似于或超过对所有 SNP 使用相同统计模型的简单方法的验证能力。三个数据集的示例分析也突出了新方法的这些优点。R 包可在 www.stjuderesearch.org/site/depts/biostats/maew 上免费获得。co-dominant) 代表在 GWAS 研究中观察到的每个变体的数据。我们表明新方法严格控制错误发现率并渐近地选择正确的生物模型。两阶段发现-验证研究的模拟表明,新方法具有这些特性,并且其验证能力类似于或超过对所有 SNP 使用相同统计模型的简单方法的验证能力。三个数据集的示例分析也突出了新方法的这些优点。R 包可在 www.stjuderesearch.org/site/depts/biostats/maew 上免费获得。co-dominant) 代表在 GWAS 研究中观察到的每个变体的数据。我们表明新方法严格控制错误发现率并渐近地选择正确的生物模型。两阶段发现-验证研究的模拟表明,新方法具有这些特性,并且其验证能力类似于或超过对所有 SNP 使用相同统计模型的简单方法的验证能力。三个数据集的示例分析也突出了新方法的这些优点。R 包可在 www.stjuderesearch.org/site/depts/biostats/maew 上免费获得。两阶段发现-验证研究的模拟表明,新方法具有这些特性,并且其验证能力类似于或超过对所有 SNP 使用相同统计模型的简单方法的验证能力。三个数据集的示例分析也突出了新方法的这些优点。R 包可在 www.stjuderesearch.org/site/depts/biostats/maew 上免费获得。两阶段发现-验证研究的模拟表明,新方法具有这些特性,并且其验证能力类似于或超过对所有 SNP 使用相同统计模型的简单方法的验证能力。三个数据集的示例分析也突出了新方法的这些优点。R 包可在 www.stjuderesearch.org/site/depts/biostats/maew 上免费获得。
更新日期:2018-08-01
down
wechat
bug