当前位置: X-MOL 学术Biometrics › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
A Bayes factor approach with informative prior for rare genetic variant analysis from next generation sequencing data
Biometrics ( IF 1.9 ) Pub Date : 2020-05-10 , DOI: 10.1111/biom.13278
Jingxiong Xu 1, 2 , Wei Xu 1, 3 , Laurent Briollais 1, 2
Affiliation  

The discovery of rare genetic variants through Next Generation Sequencing is a very challenging issue in the field of human genetics. We propose a novel region-based statistical approach based on a Bayes Factor (BF) to assess evidence of association between a set of rare variants (RVs) located on the same genomic region and a disease outcome in the context of case-control design. Marginal likelihoods are computed under the null and alternative hypotheses assuming a binomial distribution for the RV count in the region and a beta or mixture of Dirac and beta prior distribution for the probability of RV. We derive the theoretical null distribution of the BF under our prior setting and show that a Bayesian control of the False Discovery Rate (BFDR) can be obtained for genome-wide inference. Informative priors are introduced using prior evidence of association from a Kolmogorov-Smirnov test statistic. We use our simulation program, sim1000G, to generate RV data similar to the 1,000 genomes sequencing project. Our simulation studies showed that the new BF statistic outperforms standard methods (SKAT, SKAT-O, Burden test) in case-control studies with moderate sample sizes and is equivalent to them under large sample size scenarios. Our real data application to a lung cancer case-control study found enrichment for RVs in known and novel cancer genes. It also suggests that using the BF with informative prior improves the overall gene discovery compared to the BF with non-informative prior. This article is protected by copyright. All rights reserved.

中文翻译:

一种具有信息先验的贝叶斯因子方法,用于下一代测序数据的罕见遗传变异分析

通过下一代测序发现稀有遗传变异是人类遗传学领域非常具有挑战性的问题。我们提出了一种基于贝叶斯因子 (BF) 的新型基于区域的统计方法,以评估位于同一基因组区域的一组罕见变异 (RV) 与病例对照设计背景下的疾病结果之间关联的证据。假设该区域中 RV 计数的二项式分布以及 RV 概率的 Beta 或 Dirac 和 Beta 先验分布的混合,则在原假设和替代假设下计算边际似然。我们在我们的先前设置下推导出 BF 的理论零分布,并表明可以为全基因组推理获得错误发现率 (BFDR) 的贝叶斯控制。使用来自 Kolmogorov-Smirnov 检验统计量的先验关联证据引入信息先验。我们使用我们的模拟程序 sim1000G 来生成类似于 1,000 基因组测序项目的 RV 数据。我们的模拟研究表明,新的 BF 统计量在中等样本量的病例对照研究中优于标准方法(SKAT、SKAT-O、Burden 检验),并且在大样本量情景下与它们等效。我们对肺癌病例对照研究的真实数据应用发现,已知和新型癌症基因中的 RV 富集。它还表明,与具有非信息先验的 BF 相比,使用具有信息先验的 BF 改善了整体基因发现。本文受版权保护。版权所有。生成类似于 1,000 基因组测序项目的 RV 数据。我们的模拟研究表明,新的 BF 统计量在中等样本量的病例对照研究中优于标准方法(SKAT、SKAT-O、Burden 检验),并且在大样本量情景下与它们等效。我们对肺癌病例对照研究的真实数据应用发现,已知和新型癌症基因中的 RV 富集。它还表明,与具有非信息先验的 BF 相比,使用具有信息先验的 BF 改善了整体基因发现。本文受版权保护。版权所有。生成类似于 1,000 基因组测序项目的 RV 数据。我们的模拟研究表明,新的 BF 统计量在中等样本量的病例对照研究中优于标准方法(SKAT、SKAT-O、Burden 检验),并且在大样本量情景下与它们等效。我们在肺癌病例对照研究中的真实数据应用发现,已知和新型癌症基因中的 RV 富集。它还表明,与具有非信息先验的 BF 相比,使用具有信息先验的 BF 改善了整体基因发现。本文受版权保护。版权所有。负担检验)在中等样本量的病例对照研究中,在大样本量的情况下等效于它们。我们对肺癌病例对照研究的真实数据应用发现,已知和新型癌症基因中的 RV 富集。它还表明,与具有非信息先验的 BF 相比,使用具有信息先验的 BF 改善了整体基因发现。本文受版权保护。版权所有。负担检验)在中等样本量的病例对照研究中,在大样本量的情况下等效于它们。我们对肺癌病例对照研究的真实数据应用发现,已知和新型癌症基因中的 RV 富集。它还表明,与具有非信息先验的 BF 相比,使用具有信息先验的 BF 改善了整体基因发现。本文受版权保护。版权所有。
更新日期:2020-05-10
down
wechat
bug