当前位置: X-MOL 学术Syst. Biol. › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
Phylogeny Estimation Given Sequence Length Heterogeneity
Systematic Biology ( IF 6.1 ) Pub Date : 2020-07-21 , DOI: 10.1093/sysbio/syaa058
Vladimir Smirnov 1 , Tandy Warnow 1
Affiliation  

Phylogeny estimation is a major step in many biological studies, and has many well known challenges. With the dropping cost of sequencing technologies, biologists now have increasingly large datasets available for use in phylogeny estimation. Here we address the challenge of estimating a tree given large datasets with a combination of full-length sequences and fragmentary sequences, which can arise due to a variety of reasons, including sample collection, sequencing technologies, and analytical pipelines. We compare two basic approaches: (1) computing an alignment on the full dataset and then computing a maximum likelihood tree on the alignment, or (2) constructing an alignment and tree on the full length sequences and then using phylogenetic placement to add the remaining sequences (which will generally be fragmentary) into the tree. We explore these two approaches on a range of simulated datasets, each with 1000 sequences and varying in rates of evolution, and two biological datasets. Our study shows some striking performance differences between methods, especially when there is substantial sequence length heterogeneity and high rates of evolution. We find in particular that using UPP to align sequences and RAxML to compute a tree on the alignment provides the best accuracy, substantially outperforming trees computed using phylogenetic placement methods. We also find that FastTree has poor accuracy on alignments containing fragmentary sequences. Overall, our study provides insights into the literature comparing different methods and pipelines for phylogenetic estimation, and suggests directions for future method development.

中文翻译:

给定序列长度异质性的系统发育估计

系统发育估计是许多生物学研究的重要步骤,并且面临许多众所周知的挑战。随着测序技术成本的下降,生物学家现在拥有越来越大的数据集可用于系统发育估计。在这里,我们解决了在给定具有全长序列和片段序列组合的大型数据集的情况下估计树的挑战,这可能由多种原因引起,包括样本收集、测序技术和分析管道。我们比较了两种基本方法:(1)在完整数据集上计算比对,然后在比对上计算最大似然树,或(2)在全长序列上构建比对和树,然后使用系统发育放置添加剩余的序列(通常是零碎的)到树中。我们在一系列模拟数据集和两个生物数据集上探索了这两种方法,每个模拟数据集都有 1000 个序列和不同的进化速率。我们的研究显示了方法之间存在一些显着的性能差异,特别是当存在大量序列长度异质性和高进化率时。我们特别发现,使用 UPP 来对齐序列和使用 RAxML 来计算对齐上的树提供了最好的准确性,大大优于使用系统发育放置方法计算的树。我们还发现 FastTree 在包含片段序列的比对上的准确性很差。总的来说,我们的研究提供了对比较不同系统发育估计方法和管道的文献的见解,并为未来的方法开发提出了建议。每个都有 1000 个序列,进化速度各不相同,以及两个生物数据集。我们的研究显示了方法之间存在一些显着的性能差异,特别是当存在大量序列长度异质性和高进化率时。我们特别发现,使用 UPP 来对齐序列和使用 RAxML 来计算对齐上的树提供了最好的准确性,大大优于使用系统发育放置方法计算的树。我们还发现 FastTree 在包含片段序列的比对上的准确性很差。总的来说,我们的研究提供了对比较不同系统发育估计方法和管道的文献的见解,并为未来的方法开发提出了建议。每个都有 1000 个序列,进化速度各不相同,以及两个生物数据集。我们的研究显示了方法之间存在一些显着的性能差异,特别是当存在大量序列长度异质性和高进化率时。我们特别发现,使用 UPP 来对齐序列和使用 RAxML 来计算对齐上的树提供了最好的准确性,大大优于使用系统发育放置方法计算的树。我们还发现 FastTree 在包含片段序列的比对上的准确性很差。总的来说,我们的研究提供了对比较不同系统发育估计方法和管道的文献的见解,并为未来的方法开发提出了建议。我们的研究显示了方法之间存在一些显着的性能差异,特别是当存在大量序列长度异质性和高进化率时。我们特别发现,使用 UPP 来对齐序列和使用 RAxML 来计算对齐上的树提供了最好的准确性,大大优于使用系统发育放置方法计算的树。我们还发现 FastTree 在包含片段序列的比对上的准确性很差。总的来说,我们的研究提供了对比较不同系统发育估计方法和管道的文献的见解,并为未来的方法开发提出了建议。我们的研究显示了方法之间存在一些显着的性能差异,特别是当存在大量序列长度异质性和高进化率时。我们特别发现,使用 UPP 来对齐序列和使用 RAxML 来计算对齐上的树提供了最好的准确性,大大优于使用系统发育放置方法计算的树。我们还发现 FastTree 在包含片段序列的比对上的准确性很差。总的来说,我们的研究提供了对比较不同系统发育估计方法和管道的文献的见解,并为未来的方法开发提出了建议。我们特别发现,使用 UPP 来对齐序列和使用 RAxML 来计算对齐上的树提供了最好的准确性,大大优于使用系统发育放置方法计算的树。我们还发现 FastTree 在包含片段序列的比对上的准确性很差。总的来说,我们的研究提供了对比较不同系统发育估计方法和管道的文献的见解,并为未来的方法开发提出了建议。我们特别发现,使用 UPP 来对齐序列和使用 RAxML 来计算对齐上的树提供了最好的准确性,大大优于使用系统发育放置方法计算的树。我们还发现 FastTree 在包含片段序列的比对上的准确性很差。总的来说,我们的研究提供了对比较不同系统发育估计方法和管道的文献的见解,并为未来的方法开发提出了建议。
更新日期:2020-07-21
down
wechat
bug