当前位置: X-MOL 学术bioRxiv. Genom. › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
FDR control in GWAS with population structure
bioRxiv - Genomics Pub Date : 2021-06-11 , DOI: 10.1101/2020.08.04.236703
Matteo Sesia , Stephen Bates , Emmanuel Candès , Jonathan Marchini , Chiara Sabatti

We present a comprehensive statistical framework to analyze data from genome-wide association studies of polygenic traits, producing distinct and interpretable discoveries while controlling the false discovery rate. This approach leverages sophisticated multivariate models, correcting for linkage disequilibrium, and accounts for population structure and relatedness, adapting to the characteristics of the samples at hand. A key element is the recognition that the observed genotypes can be considered as a random sample from an appropriate model, encapsulating our knowledge of genetic inheritance and human populations. This allows us to generate imperfect copies (knockoffs) of these variables which serve as ideal negative controls; knockoffs are indistinguishable from the original genotypes in distribution, and independent from the phenotype. In sharp contrast with state-of-the-art methods, the validity of our inference in no way depends on assumptions about the unknown relation between genotypes and phenotype. We develop and leverage a model for the genotypes that accounts for arbitrary and unknown population structure, which may be due to diverse ancestries or familial relatedness. We build a pipeline that is robust to the most prominent possible confounders, facilitating the discovery of causal variants. Validity and effectiveness are demonstrated by extensive simulations with real data, as well as by the analysis of several phenotypes in the UK Biobank. Finally, fast software is made available for researchers to apply the proposed methodology to Biobank-scale data sets.

中文翻译:

具有人口结构的 GWAS 中的 FDR 控制

我们提出了一个全面的统计框架来分析来自多基因特征的全基因组关联研究的数据,在控制错误发现率的同时产生独特且可解释的发现。这种方法利用复杂的多变量模型,纠正连锁不平衡,并考虑人口结构和相关性,适应手头样本的特征。一个关键要素是认识到观察到的基因型可以被视为来自适当模型的随机样本,囊括了我们对遗传和人群的知识。这使我们能够生成这些变量的不完美副本(仿制品),作为理想的阴性对照;仿冒品在分布上与原始基因型无法区分,并且与表型无关。与最先进的方法形成鲜明对比的是,我们推断的有效性绝不取决于对基因型和表型之间未知关系的假设。我们开发并利用了一个基因型模型,该模型解释了任意和未知的种群结构,这可能是由于不同的血统或家族相关性。我们构建了一个对最突出的可能混杂因素具有鲁棒性的管道,促进了因果变异的发现。有效性和有效性通过真实数据的广泛模拟以及英国生物银行中几种表型的分析得到证明。最后,研究人员可以使用快速软件将所提出的方法应用于生物银行规模的数据集。我们推断的有效性绝不取决于对基因型和表型之间未知关系的假设。我们开发并利用了一个基因型模型,该模型解释了任意和未知的种群结构,这可能是由于不同的血统或家族相关性。我们构建了一个对最突出的可能混杂因素具有鲁棒性的管道,促进了因果变异的发现。有效性和有效性通过真实数据的广泛模拟以及英国生物银行中几种表型的分析得到证明。最后,研究人员可以使用快速软件将所提出的方法应用于生物银行规模的数据集。我们推断的有效性绝不取决于对基因型和表型之间未知关系的假设。我们开发并利用了一个基因型模型,该模型解释了任意和未知的种群结构,这可能是由于不同的血统或家族相关性。我们构建了一个对最突出的可能混杂因素具有鲁棒性的管道,促进了因果变异的发现。有效性和有效性通过真实数据的广泛模拟以及英国生物银行中几种表型的分析得到证明。最后,研究人员可以使用快速软件将所提出的方法应用于生物银行规模的数据集。这可能是由于不同的血统或家族关系。我们构建了一个对最突出的可能混杂因素具有鲁棒性的管道,促进了因果变异的发现。有效性和有效性通过真实数据的广泛模拟以及英国生物银行中几种表型的分析得到证明。最后,研究人员可以使用快速软件将所提出的方法应用于生物银行规模的数据集。这可能是由于不同的血统或家族关系。我们构建了一个对最突出的可能混杂因素具有鲁棒性的管道,促进了因果变异的发现。有效性和有效性通过真实数据的广泛模拟以及英国生物银行中几种表型的分析得到证明。最后,研究人员可以使用快速软件将所提出的方法应用于生物银行规模的数据集。
更新日期:2021-06-13
down
wechat
bug