当前位置: X-MOL 学术Mamm. Genome › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
Best practices for analyzing imputed genotypes from low-pass sequencing in dogs
Mammalian Genome ( IF 2.7 ) Pub Date : 2021-09-08 , DOI: 10.1007/s00335-021-09914-z
Reuben M Buckley 1 , Alex C Harris 1 , Guo-Dong Wang 2, 3 , D Thad Whitaker 1 , Ya-Ping Zhang 2, 3 , Elaine A Ostrander 1
Affiliation  

Although DNA array-based approaches for genome-wide association studies (GWAS) permit the collection of thousands of low-cost genotypes, it is often at the expense of resolution and completeness, as SNP chip technologies are ultimately limited by SNPs chosen during array development. An alternative low-cost approach is low-pass whole genome sequencing (WGS) followed by imputation. Rather than relying on high levels of genotype confidence at a set of select loci, low-pass WGS and imputation rely on the combined information from millions of randomly sampled low-confidence genotypes. To investigate low-pass WGS and imputation in the dog, we assessed accuracy and performance by downsampling 97 high-coverage (> 15×) WGS datasets from 51 different breeds to approximately 1× coverage, simulating low-pass WGS. Using a reference panel of 676 dogs from 91 breeds, genotypes were imputed from the downsampled data and compared to a truth set of genotypes generated from high-coverage WGS. Using our truth set, we optimized a variant quality filtering strategy that retained approximately 80% of 14 M imputed sites and lowered the imputation error rate from 3.0% to 1.5%. Seven million sites remained with a MAF > 5% and an average imputation quality score of 0.95. Finally, we simulated the impact of imputation errors on outcomes for case–control GWAS, where small effect sizes were most impacted and medium-to-large effect sizes were minorly impacted. These analyses provide best practice guidelines for study design and data post-processing of low-pass WGS-imputed genotypes in dogs.



中文翻译:

从狗的低通测序分析估算基因型的最佳实践

尽管基于 DNA 阵列的全基因组关联研究 (GWAS) 方法允许收集数千种低成本基因型,但它通常以分辨率和完整性为代价,因为 SNP 芯片技术最终受到阵列开发过程中选择的 SNP 的限制. 另一种低成本方法是低通全基因组测序 (WGS),然后进行插补。低通 WGS 和插补不是依赖于一组选定位点的高水平基因型置信度,而是依赖于来自数百万随机抽样的低置信度基因型的组合信息。为了研究狗的低通 WGS 和插补,我们通过将 51 个不同品种的 97 个高覆盖率(> 15×)WGS 数据集下采样到大约 1× 覆盖率来评估准确性和性能,模拟低通 WGS。使用来自 91 个品种的 676 只狗的参考小组,从下采样数据中估算基因型,并与从高覆盖率 WGS 生成的一组真值基因型进行比较。使用我们的真值集,我们优化了一种变体质量过滤策略,该策略保留了 1400 万个估算站点中的大约 80%,并将估算错误率从 3.0% 降低到 1.5%。700 万个站点的 MAF > 5%,平均插补质量得分为 0.95。最后,我们模拟了插补错误对病例对照 GWAS 结果的影响,其中小效应量受影响最大,中到大效应量受轻微影响。这些分析为狗的低通 WGS 推算基因型的研究设计和数据后处理提供了最佳实践指南。基因型是从下采样数据中估算出来的,并与从高覆盖率 WGS 生成的一组真值基因型进行比较。使用我们的真值集,我们优化了一种变体质量过滤策略,该策略保留了 1400 万个估算站点中的大约 80%,并将估算错误率从 3.0% 降低到 1.5%。700 万个站点的 MAF > 5%,平均插补质量得分为 0.95。最后,我们模拟了插补错误对病例对照 GWAS 结果的影响,其中小效应量受影响最大,中到大效应量受轻微影响。这些分析为狗的低通 WGS 推算基因型的研究设计和数据后处理提供了最佳实践指南。基因型是从下采样数据中估算出来的,并与从高覆盖率 WGS 生成的一组真值基因型进行比较。使用我们的真值集,我们优化了一种变体质量过滤策略,该策略保留了 1400 万个估算站点中的大约 80%,并将估算错误率从 3.0% 降低到 1.5%。700 万个站点的 MAF > 5%,平均插补质量得分为 0.95。最后,我们模拟了插补错误对病例对照 GWAS 结果的影响,其中小效应量受影响最大,中到大效应量受轻微影响。这些分析为狗的低通 WGS 推算基因型的研究设计和数据后处理提供了最佳实践指南。我们优化了一种变体质量过滤策略,该策略保留了大约 80% 的 1400 万个插补站点,并将插补错误率从 3.0% 降低到 1.5%。700 万个站点的 MAF > 5%,平均插补质量得分为 0.95。最后,我们模拟了插补错误对病例对照 GWAS 结果的影响,其中小效应量受影响最大,中到大效应量受轻微影响。这些分析为狗的低通 WGS 推算基因型的研究设计和数据后处理提供了最佳实践指南。我们优化了一种变体质量过滤策略,该策略保留了大约 80% 的 1400 万个插补站点,并将插补错误率从 3.0% 降低到 1.5%。700 万个站点的 MAF > 5%,平均插补质量得分为 0.95。最后,我们模拟了插补错误对病例对照 GWAS 结果的影响,其中小效应量受影响最大,中到大效应量受轻微影响。这些分析为狗的低通 WGS 推算基因型的研究设计和数据后处理提供了最佳实践指南。我们模拟了插补错误对病例对照 GWAS 结果的影响,其中小效应量受影响最大,中到大效应量受轻微影响。这些分析为狗的低通 WGS 推算基因型的研究设计和数据后处理提供了最佳实践指南。我们模拟了插补错误对病例对照 GWAS 结果的影响,其中小效应量受影响最大,中到大效应量受轻微影响。这些分析为狗的低通 WGS 推算基因型的研究设计和数据后处理提供了最佳实践指南。

更新日期:2021-09-09
down
wechat
bug