当前位置: X-MOL 学术Mol. Ecol. Resour. › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
The impact of contaminants on the accuracy of genome skimming and the effectiveness of exclusion read filters.
Molecular Ecology Resources ( IF 5.5 ) Pub Date : 2020-02-04 , DOI: 10.1111/1755-0998.13135
Eleonora Rachtman 1 , Metin Balaban 1 , Vineet Bafna 2 , Siavash Mirarab 3
Affiliation  

The ability to detect the identity of a sample obtained from its environment is a cornerstone of molecular ecological research. Thanks to the falling price of shotgun sequencing, genome skimming, the acquisition of short reads spread across the genome at low coverage, is emerging as an alternative to traditional barcoding. By obtaining far more data across the whole genome, skimming has the promise to increase the precision of sample identification beyond traditional barcoding while keeping the costs manageable. While methods for assembly-free sample identification based on genome skims are now available, little is known about how these methods react to the presence of DNA from organisms other than the target species. In this paper, we show that the accuracy of distances computed between a pair of genome skims based on k-mer similarity can degrade dramatically if the skims include contaminant reads; i.e., any reads originating from other organisms. We establish a theoretical model of the impact of contamination. We then suggest and evaluate a solution to the contamination problem: Query reads in a genome skim against an extensive database of possible contaminants (e.g., all microbial organisms) and filter out any read that matches. We evaluate the effectiveness of this strategy when implemented using Kraken-II, in detailed analyses. Our results show substantial improvements in accuracy as a result of filtering but also point to limitations, including a need for relatively close matches in the contaminant database.

中文翻译:

污染物对基因组撇除准确性和排他性读取过滤器有效性的影响。

检测从其环境中获得的样品的身份的能力是分子生态研究的基础。由于shot弹枪测序,基因组撇取的价格下降,对低位基因组中散布在基因组上的短读片段的获取正逐渐取代传统条形码。通过在整个基因组中获取更多的数据,撇除有望使样本识别的精度提高到超越传统条形码的水平,同时保持成本可控。尽管现在可以使用基于基因组撇取的免组装样品识别方法,但对于这些方法如何对来自目标物种以外的生物体中DNA的反应知之甚少。在本文中,我们显示,如果撇除包含污染物读数,则基于k-mer相似性计算的一对基因组撇除之间的距离的准确性可能会大大降低;即,任何来自其他生物的读物。我们建立了污染影响的理论模型。然后,我们提出并评估污染问题的解决方案:针对可能的污染物(例如,所有微生物)的广泛数据库,在基因组浏览中查询读数,并过滤掉所有匹配的读数。在详细分析中,我们评估了使用Kraken-II实施此策略时的有效性。我们的结果显示,由于进行了过滤,因此准确性得到了显着提高,但同时也指出了局限性,包括需要在污染物数据库中进行相对接近的匹配。来自其他生物的任何读物。我们建立了污染影响的理论模型。然后,我们提出并评估污染问题的解决方案:针对可能的污染物(例如,所有微生物)的广泛数据库,在基因组浏览中查询读数,并过滤掉所有匹配的读数。在详细分析中,我们评估了使用Kraken-II实施此策略时的有效性。我们的结果显示,由于进行了过滤,因此准确性得到了显着提高,但同时也指出了局限性,包括需要在污染物数据库中进行相对接近的匹配。来自其他生物的任何读物。我们建立了污染影响的理论模型。然后,我们提出并评估污染问题的解决方案:针对可能的污染物(例如,所有微生物)的广泛数据库,在基因组浏览中查询读数,并过滤掉所有匹配的读数。在详细分析中,我们评估了使用Kraken-II实施此策略时的有效性。我们的结果显示,由于进行了过滤,因此准确性得到了显着提高,但同时也指出了局限性,包括需要在污染物数据库中进行相对接近的匹配。查询将针对可能的污染物(例如,所有微生物)的广泛数据库在基因组中进行略读,并筛选出所有匹配的读物。在详细分析中,我们评估了使用Kraken-II实施此策略时的有效性。我们的结果显示,由于进行了过滤,因此准确性得到了显着提高,但同时也指出了局限性,包括需要在污染物数据库中进行相对接近的匹配。查询将针对可能的污染物(例如,所有微生物)的广泛数据库在基因组中进行略读,并筛选出所有匹配的读物。在详细分析中,我们评估了使用Kraken-II实施此策略时的有效性。我们的结果显示,由于进行了过滤,因此准确性得到了显着提高,但同时也指出了局限性,包括需要在污染物数据库中进行相对接近的匹配。
更新日期:2020-02-04
down
wechat
bug