当前位置: X-MOL 学术Brief. Bioinform. › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
Evaluating assembly and variant calling software for strain-resolved analysis of large DNA viruses
Briefings in Bioinformatics ( IF 9.5 ) Pub Date : 2020-07-07 , DOI: 10.1093/bib/bbaa123
Zhi-Luo Deng 1 , Akshay Dhingra 2 , Adrian Fritz 1 , Jasper Götting 2 , Philipp C Münch 3 , Lars Steinbrück 2 , Thomas F Schulz 2 , Tina Ganzenmüller 2 , Alice C McHardy 1
Affiliation  

Infection with human cytomegalovirus (HCMV) can cause severe complications in immunocompromised individuals and congenitally infected children. Characterizing heterogeneous viral populations and their evolution by high-throughput sequencing of clinical specimens requires the accurate assembly of individual strains or sequence variants and suitable variant calling methods. However, the performance of most methods has not been assessed for populations composed of low divergent viral strains with large genomes, such as HCMV. In an extensive benchmarking study, we evaluated 15 assemblers and 6 variant callers on 10 lab-generated benchmark data sets created with two different library preparation protocols, to identify best practices and challenges for analyzing such data. Most assemblers, especially metaSPAdes and IVA, performed well across a range of metrics in recovering abundant strains. However, only one, Savage, recovered low abundant strains and in a highly fragmented manner. Two variant callers, LoFreq and VarScan2, excelled across all strain abundances. Both shared a large fraction of false positive variant calls, which were strongly enriched in T to G changes in a ‘G.G’ context. The magnitude of this context-dependent systematic error is linked to the experimental protocol. We provide all benchmarking data, results and the entire benchmarking workflow named QuasiModo, Quasispecies Metric determination on omics, under the GNU General Public License v3.0 (https://github.com/hzi-bifo/Quasimodo), to enable full reproducibility and further benchmarking on these and other data.

中文翻译:

评估用于大型 DNA 病毒菌株分辨分析的组装和变体调用软件

感染人类巨细胞病毒 (HCMV) 可导致免疫功能低下的个体和先天性感染儿童出现严重并发症。通过临床样本的高通量测序来表征异质病毒种群及其进化需要准确组装单个菌株或序列变体以及合适的变体调用方法。然而,大多数方法的性能尚未针对由具有大基因组的低发散性病毒株(如 HCMV)组成的人群进行评估。在一项广泛的基准测试研究中,我们在 10 个实验室生成的基准数据集上评估了 15 个组装器和 6 个变体调用器,这些基准数据集使用两种不同的库制备协议创建,以确定分析此类数据的最佳实践和挑战。大多数汇编器,尤其是 metaSPAdes 和 IVA,在恢复丰富菌株的一系列指标中表现良好。然而,只有一个 Savage 以高度分散的方式恢复了低丰度菌株。两个变体调用者 LoFreq 和 VarScan2 在所有菌株丰度中表现出色。两者都有很大一部分假阳性变异调用,这些变异调用在“G.G”上下文中强烈丰富了 T 到 G 的变化。这种与上下文相关的系统误差的大小与实验方案有关。我们根据 GNU 通用公共许可证 v3.0 (https://github.com/hzi-bifo/Quasimodo) 提供所有基准测试数据、结果和名为 QuasiModo、组学准物种指标测定的整个基准测试工作流程,以实现完全可重复性并进一步对这些和其他数据进行基准测试。以高度分散的方式恢复了低丰度的菌株。两个变体调用者 LoFreq 和 VarScan2 在所有菌株丰度中表现出色。两者都有很大一部分假阳性变异调用,这些变异调用在“G.G”上下文中强烈丰富了 T 到 G 的变化。这种与上下文相关的系统误差的大小与实验方案有关。我们根据 GNU 通用公共许可证 v3.0 (https://github.com/hzi-bifo/Quasimodo) 提供所有基准测试数据、结果和名为 QuasiModo、组学准物种指标测定的整个基准测试工作流程,以实现完全可重复性并进一步对这些和其他数据进行基准测试。以高度分散的方式恢复了低丰度的菌株。两个变体调用者 LoFreq 和 VarScan2 在所有菌株丰度中表现出色。两者都有很大一部分假阳性变异调用,这些变异调用在“G.G”上下文中强烈丰富了 T 到 G 的变化。这种与上下文相关的系统误差的大小与实验方案有关。我们根据 GNU 通用公共许可证 v3.0 (https://github.com/hzi-bifo/Quasimodo) 提供所有基准测试数据、结果和名为 QuasiModo、组学准物种指标测定的整个基准测试工作流程,以实现完全可重复性并进一步对这些和其他数据进行基准测试。两者都有很大一部分假阳性变异调用,这些变异调用在“G.G”上下文中强烈丰富了 T 到 G 的变化。这种与上下文相关的系统误差的大小与实验方案有关。我们根据 GNU 通用公共许可证 v3.0 (https://github.com/hzi-bifo/Quasimodo) 提供所有基准测试数据、结果和名为 QuasiModo、组学准物种指标测定的整个基准测试工作流程,以实现完全可重复性并进一步对这些和其他数据进行基准测试。两者都有很大一部分假阳性变异调用,这些变异调用在“G.G”上下文中强烈丰富了 T 到 G 的变化。这种与上下文相关的系统误差的大小与实验方案有关。我们根据 GNU 通用公共许可证 v3.0 (https://github.com/hzi-bifo/Quasimodo) 提供所有基准测试数据、结果和名为 QuasiModo、组学准物种指标测定的整个基准测试工作流程,以实现完全可重复性并进一步对这些和其他数据进行基准测试。
更新日期:2020-07-07
down
wechat
bug