当前位置: X-MOL 学术Am. J. Hum. Genet. › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
Rapid, Phase-free Detection of Long Identity-by-Descent Segments Enables Effective Relationship Classification.
American Journal of Human Genetics ( IF 9.8 ) Pub Date : 2020-03-19 , DOI: 10.1016/j.ajhg.2020.02.012
Daniel N Seidman 1 , Sushila A Shenoy 2 , Minsoo Kim 2 , Ramya Babu 3 , Ian G Woods 4 , Thomas D Dyer 5 , Donna M Lehman 6 , Joanne E Curran 5 , Ravindranath Duggirala 5 , John Blangero 5 , Amy L Williams 1
Affiliation  

Identity-by-descent (IBD) segments are a useful tool for applications ranging from demographic inference to relationship classification, but most detection methods rely on phasing information and therefore require substantial computation time. As genetic datasets grow, methods for inferring IBD segments that scale well will be critical. We developed IBIS, an IBD detector that locates long regions of allele sharing between unphased individuals, and benchmarked it with Refined IBD, GERMLINE, and TRUFFLE on 3,000 simulated individuals. Phasing these with Beagle 5 takes 4.3 CPU days, followed by either Refined IBD or GERMLINE segment detection in 2.9 or 1.1 h, respectively. By comparison, IBIS finishes in 6.8 min or 7.8 min with IBD2 functionality enabled: speedups of 805-946× including phasing time. TRUFFLE takes 2.6 h, corresponding to IBIS speedups of 20.2-23.3×. IBIS is also accurate, inferring ≥7 cM IBD segments at quality comparable to Refined IBD and GERMLINE. With these segments, IBIS classifies first through third degree relatives in real Mexican American samples at rates meeting or exceeding other methods tested and identifies fourth through sixth degree pairs at rates within 0.0%-2.0% of the top method. While allele frequency-based approaches that do not detect segments can infer relationship degrees faster than IBIS, the fastest are biased in admixed samples, with KING inferring 30.8% fewer fifth degree Mexican American relatives correctly compared with IBIS. Finally, we ran IBIS on chromosome 2 of the UK Biobank dataset and estimate its runtime on the autosomes to be 3.3 days parallelized across 128 cores.

中文翻译:

快速、无阶段地检测长身份的下降段可实现有效的关系分类。

Identity-by-descent (IBD) 段是从人口统计推断到关系分类的应用程序的有用工具,但大多数检测方法依赖于相位信息,因此需要大量的计算时间。随着遗传数据集的增长,推断可扩展的 IBD 片段的方法将变得至关重要。我们开发了 IBIS,这是一种 IBD 检测器,可定位未定相个体之间共享等位基因的长区域,并在 3,000 个模拟个体上使用 Refined IBD、GERMLINE 和 TRUFFLE 对其进行基准测试。使用 Beagle 5 逐步完成这些需要 4.3 CPU 天,然后分别在 2.9 或 1.1 小时内完成 Refined IBD 或 GERMLINE 段检测。相比之下,IBIS 在启用 IBD2 功能的情况下在 6.8 分钟或 7.8 分钟内完成:加速 805-946 倍,包括分阶段时间。TRUFFLE 需要 2.6 小时,对应于 20.2-23.3 倍的 IBIS 加速。IBIS 也是准确的,推断 ≥7 cM IBD 片段的质量可与 Refined IBD 和 GERMLINE 相媲美。通过这些细分,IBIS 以达到或超过其他测试方法的速率对真实墨西哥裔美国人样本中的一级至三级亲属进行分类,并以顶级方法的 0.0%-2.0% 范围内的比率识别四级至六级对。虽然不检测片段的基于等位基因频率的方法可以比 IBIS 更快地推断出关系程度,但最快的是在混合样本中存在偏差,与 IBIS 相比,KING 正确推断的墨西哥裔美国五级亲属减少了 30.8%。最后,我们在 UK Biobank 数据集的 2 号染色体上运行 IBIS,并估计其在常染色体上的运行时间为 3.3 天,在 128 个内核上并行运行。以与 Refined IBD 和 GERMLINE 相当的质量推断 ≥7 cM IBD 片段。通过这些细分,IBIS 以达到或超过其他测试方法的速率对真实墨西哥裔美国人样本中的一级至三级亲属进行分类,并以顶级方法的 0.0%-2.0% 范围内的比率识别四级至六级对。虽然不检测片段的基于等位基因频率的方法可以比 IBIS 更快地推断出关系程度,但最快的是在混合样本中存在偏差,与 IBIS 相比,KING 正确推断的墨西哥裔美国五级亲属减少了 30.8%。最后,我们在 UK Biobank 数据集的 2 号染色体上运行 IBIS,并估计其在常染色体上的运行时间为 3.3 天,在 128 个内核上并行运行。以与 Refined IBD 和 GERMLINE 相当的质量推断 ≥7 cM IBD 片段。通过这些细分,IBIS 以达到或超过其他测试方法的速率对真实墨西哥裔美国人样本中的一级至三级亲属进行分类,并以顶级方法的 0.0%-2.0% 范围内的比率识别四级至六级对。虽然不检测片段的基于等位基因频率的方法可以比 IBIS 更快地推断出关系程度,但最快的是在混合样本中存在偏差,与 IBIS 相比,KING 正确推断的墨西哥裔美国五级亲属减少了 30.8%。最后,我们在 UK Biobank 数据集的 2 号染色体上运行 IBIS,并估计其在常染色体上的运行时间为 3.3 天,在 128 个内核上并行运行。IBIS 以达到或超过其他测试方法的比率对真实墨西哥裔美国人样本中的一级至三级亲属进行分类,并以顶级方法的 0.0%-2.0% 范围内的比率识别四级至六级对。虽然不检测片段的基于等位基因频率的方法可以比 IBIS 更快地推断出关系程度,但最快的是在混合样本中存在偏差,与 IBIS 相比,KING 正确推断的墨西哥裔美国五级亲属减少了 30.8%。最后,我们在 UK Biobank 数据集的 2 号染色体上运行 IBIS,并估计其在常染色体上的运行时间为 3.3 天,在 128 个内核上并行运行。IBIS 以达到或超过其他测试方法的比率对真实墨西哥裔美国人样本中的一级至三级亲属进行分类,并以顶级方法的 0.0%-2.0% 范围内的比率识别四级至六级对。虽然不检测片段的基于等位基因频率的方法可以比 IBIS 更快地推断出关系程度,但最快的是在混合样本中存在偏差,与 IBIS 相比,KING 正确推断的墨西哥裔美国五级亲属减少了 30.8%。最后,我们在 UK Biobank 数据集的 2 号染色体上运行 IBIS,并估计其在常染色体上的运行时间为 3.3 天,在 128 个内核上并行运行。虽然不检测片段的基于等位基因频率的方法可以比 IBIS 更快地推断出关系程度,但最快的是在混合样本中存在偏差,与 IBIS 相比,KING 正确推断的墨西哥裔美国五级亲属减少了 30.8%。最后,我们在 UK Biobank 数据集的 2 号染色体上运行 IBIS,并估计其在常染色体上的运行时间为 3.3 天,在 128 个内核上并行运行。虽然不检测片段的基于等位基因频率的方法可以比 IBIS 更快地推断出关系程度,但最快的是在混合样本中存在偏差,与 IBIS 相比,KING 正确推断的墨西哥裔美国五级亲属减少了 30.8%。最后,我们在 UK Biobank 数据集的 2 号染色体上运行 IBIS,并估计其在常染色体上的运行时间为 3.3 天,在 128 个内核上并行运行。
更新日期:2020-04-20
down
wechat
bug