当前位置: X-MOL 学术Syst. Biol. › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
Species Tree Inference Methods Intended to Deal with Incomplete Lineage Sorting Are Robust to the Presence of Paralogs
Systematic Biology ( IF 6.5 ) Pub Date : 2021-07-05 , DOI: 10.1093/sysbio/syab056
Zhi Yan 1 , Megan L Smith 2 , Peng Du 1 , Matthew W Hahn 2 , Luay Nakhleh 1, 3
Affiliation  

Many recent phylogenetic methods have focused on accurately inferring species trees when there is gene tree discordance due to incomplete lineage sorting (ILS). For almost all of these methods, and for phylogenetic methods in general, the data for each locus are assumed to consist of orthologous, single-copy sequences. Loci that are present in more than a single copy in any of the studied genomes are excluded from the data. These steps greatly reduce the number of loci available for analysis. The question we seek to answer in this study is: what happens if one runs such species tree inference methods on data where paralogy is present, in addition to or without ILS being present? Through simulation studies and analyses of two large biological data sets, we show that running such methods on data with paralogs can still provide accurate results. We use multiple different methods, some of which are based directly on the multispecies coalescent model, and some of which have been proven to be statistically consistent under it. We also treat the paralogous loci in multiple ways: from explicitly denoting them as paralogs, to randomly selecting one copy per species. In all cases, the inferred species trees are as accurate as equivalent analyses using single-copy orthologs. Our results have significant implications for the use of ILS-aware phylogenomic analyses, demonstrating that they do not have to be restricted to single-copy loci. This will greatly increase the amount of data that can be used for phylogenetic inference.[Gene duplication and loss; incomplete lineage sorting; multispecies coalescent; orthology; paralogy.]

中文翻译:

旨在处理不完整谱系分类的物种树推理方法对旁系同源物的存在具有鲁棒性

当由于不完全谱系分类(ILS)导致基因树不一致时,许多最近的系统发育方法都集中在准确推断物种树上。对于几乎所有这些方法,以及一般的系统发育方法,假设每个基因座的数据由直系同源的单拷贝序列组成。在任何研究的基因组中存在多个单一拷贝的基因座被排除在数据之外。这些步骤大大减少了可用于分析的基因座数量。我们在这项研究中试图回答的问题是:如果在存在或不存在 ILS 的情况下,对存在平行关系的数据运行这种物种树推理方法会发生什么?通过对两个大型生物数据集的模拟研究和分析,我们表明对具有旁系同源物的数据运行此类方法仍然可以提供准确的结果。我们使用了多种不同的方法,其中一些直接基于多物种聚结模型,其中一些已被证明在该模型下具有统计一致性。我们还以多种方式处理旁系同源基因座:从明确地将它们表示为旁系同源物,到每个物种随机选择一个副本。在所有情况下,推断的物种树与使用单拷贝直系同源物的等效分析一样准确。我们的结果对使用 ILS 感知的系统基因组分析具有重要意义,表明它们不必局限于单拷贝基因座。这将大大增加可用于系统发育推断的数据量。[基因重复和丢失;不完整的血统排序;多物种聚结;正畸学; 比喻句。] 其中一些直接基于多物种聚结模型,其中一些已被证明在该模型下具有统计一致性。我们还以多种方式处理旁系同源基因座:从明确地将它们表示为旁系同源物,到每个物种随机选择一个副本。在所有情况下,推断的物种树与使用单拷贝直系同源物的等效分析一样准确。我们的结果对使用 ILS 感知的系统基因组分析具有重要意义,表明它们不必局限于单拷贝基因座。这将大大增加可用于系统发育推断的数据量。[基因重复和丢失;不完整的血统排序;多物种聚结;正畸学; 比喻句。] 其中一些直接基于多物种聚结模型,其中一些已被证明在该模型下具有统计一致性。我们还以多种方式处理旁系同源基因座:从明确地将它们表示为旁系同源物,到每个物种随机选择一个副本。在所有情况下,推断的物种树与使用单拷贝直系同源物的等效分析一样准确。我们的结果对使用 ILS 感知的系统基因组分析具有重要意义,表明它们不必局限于单拷贝基因座。这将大大增加可用于系统发育推断的数据量。[基因重复和丢失;不完整的血统排序;多物种聚结;正畸学; 比喻句。] 我们还以多种方式处理旁系同源基因座:从明确地将它们表示为旁系同源物,到每个物种随机选择一个副本。在所有情况下,推断的物种树与使用单拷贝直系同源物的等效分析一样准确。我们的结果对使用 ILS 感知的系统基因组分析具有重要意义,表明它们不必局限于单拷贝基因座。这将大大增加可用于系统发育推断的数据量。[基因重复和丢失;不完整的血统排序;多物种聚结;正畸学; 比喻句。] 我们还以多种方式处理旁系同源基因座:从明确地将它们表示为旁系同源物,到每个物种随机选择一个副本。在所有情况下,推断的物种树与使用单拷贝直系同源物的等效分析一样准确。我们的结果对使用 ILS 感知的系统基因组分析具有重要意义,表明它们不必局限于单拷贝基因座。这将大大增加可用于系统发育推断的数据量。[基因重复和丢失;不完整的血统排序;多物种聚结;正畸学; 比喻句。] 我们的结果对使用 ILS 感知的系统基因组分析具有重要意义,表明它们不必局限于单拷贝基因座。这将大大增加可用于系统发育推断的数据量。[基因重复和丢失;不完整的血统排序;多物种聚结;正畸学; 比喻句。] 我们的结果对使用 ILS 感知的系统基因组分析具有重要意义,表明它们不必局限于单拷贝基因座。这将大大增加可用于系统发育推断的数据量。[基因重复和丢失;不完整的血统排序;多物种聚结;正畸学; 比喻句。]
更新日期:2021-07-05
down
wechat
bug