当前位置: X-MOL 学术Syst. Biol. › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
DNA Barcodes Combined with Multilocus Data of Representative Taxa Can Generate Reliable Higher-Level Phylogenies
Systematic Biology ( IF 6.5 ) Pub Date : 2021-05-21 , DOI: 10.1093/sysbio/syab038
Gerard Talavera 1, 2 , Vladimir Lukhtanov 3 , Naomi E Pierce 2 , Roger Vila 4
Affiliation  

Taxa are frequently labeled incertae sedis when their placement is debated at ranks above the species level, such as their subgeneric, generic, or subtribal placement. This is a pervasive problem in groups with complex systematics due to difficulties in identifying suitable synapomorphies. In this study, we propose combining DNA barcodes with a multilocus backbone phylogeny in order to assign taxa to genus or other higher-level categories. This sampling strategy generates molecular matrices containing large amounts of missing data that are not distributed randomly: barcodes are sampled for all representatives, and additional markers are sampled only for a small percentage. We investigate the effects of the degree and randomness of missing data on phylogenetic accuracy using simulations for up to 100 markers in 1000-tips trees, as well as a real case: the subtribe Polyommatina (Lepidoptera: Lycaenidae), a large group including numerous species with unresolved taxonomy. Our simulation tests show that when a strategic and representative selection of species for higher-level categories has been made for multigene sequencing (approximately one per simulated genus), the addition of this multigene backbone DNA data for as few as 5–10% of the specimens in the total data set can produce high-quality phylogenies, comparable to those resulting from 100% multigene sampling. In contrast, trees based exclusively on barcodes performed poorly. This approach was applied to a 1365-specimen data set of Polyommatina (including ca. 80% of described species), with nearly 8% of representative species included in the multigene backbone and the remaining 92% included only by mitochondrial COI barcodes, a phylogeny was generated that highlighted potential misplacements, unrecognized major clades, and placement for incertae sedis taxa. We use this information to make systematic rearrangements within Polyommatina, and to describe two new genera. Finally, we propose a systematic workflow to assess higher-level taxonomy in hyperdiverse groups. This research identifies an additional, enhanced value of DNA barcodes for improvements in higher-level systematics using large data sets. [Birabiro; DNA barcoding; incertae sedis; Kipepeo; Lycaenidae; missing data; phylogenomic; phylogeny; Polyommatina; supermatrix; systematics; taxonomy]

中文翻译:

DNA条形码结合代表性分类群的多位点数据可以产生可靠的高级系统发育

当它们的位置在物种级别之上进行辩论时,分类单元经常被标记为 incertae sedis,例如它们的亚属、通用或亚部落位置。由于难以识别合适的突触,这在具有复杂系统学的群体中是一个普遍的问题。在这项研究中,我们建议将 DNA 条形码与多位点主干系统发育相结合,以便将分类群分配给属或其他更高级别的类别。这种采样策略会生成包含大量缺失数据的分子矩阵,这些数据不是随机分布的:对所有代表进行条形码采样,而仅对一小部分进行额外的标记采样。我们使用对 1000 条提示树中多达 100 个标记的模拟来研究缺失数据的程度和随机性对系统发育准确性的影响,以及一个真实的案例:Polyommatina 亚族(鳞翅目:Lycaenidae),这是一个包括众多物种的大型群体,其分类学尚未解决。我们的模拟测试表明,当为多基因测序(每个模拟属约一个)对更高级别类别的物种进行战略性和代表性选择时,添加这种多基因主链 DNA 数据仅适用于 5-10% 的总数据集中的样本可以产生高质量的系统发育,与 100% 多基因采样产生的系统发育相当。相比之下,仅基于条形码的树表现不佳。这种方法适用于 1365 个标本的 Polyommatina 数据集(包括大约 80% 的描述物种),近 8% 的代表性物种包含在多基因骨架中,其余 92% 仅包含在线粒体 COI 条形码中,因此生成了一个系统发育,突出了潜在的错位、无法识别的主要进化枝和 incertae sedis 分类群的位置。我们使用这些信息在 Polyommatina 内进行系统重排,并描述两个新属。最后,我们提出了一个系统的工作流程来评估超多样性群体中的高级分类。这项研究确定了 DNA 条形码的一个额外的、增强的价值,用于使用大型数据集改进更高层次的系统学。[比拉比罗;DNA条形码;不确定性;基佩奥;狼科; 缺失数据; 系统基因组学;系统发育; 多毛虫; 超矩阵;系统学;分类] 无法识别的主要进化枝,以及 incertae sedis 分类群的位置。我们使用这些信息在 Polyommatina 内进行系统重排,并描述两个新属。最后,我们提出了一个系统的工作流程来评估超多样性群体中的高级分类。这项研究确定了 DNA 条形码的一个额外的、增强的价值,用于使用大型数据集改进更高层次的系统学。[比拉比罗;DNA条形码;不确定性;基佩奥;狼科; 缺失数据; 系统基因组学;系统发育; 多毛虫; 超矩阵;系统学;分类] 无法识别的主要进化枝,以及 incertae sedis 分类群的位置。我们使用这些信息在 Polyommatina 内进行系统重排,并描述两个新属。最后,我们提出了一个系统的工作流程来评估超多样性群体中的高级分类。这项研究确定了 DNA 条形码的一个额外的、增强的价值,用于使用大型数据集改进更高层次的系统学。[比拉比罗;DNA条形码;不确定性;基佩奥;狼科; 缺失数据; 系统基因组学;系统发育; 多毛虫; 超矩阵;系统学;分类] 这项研究确定了 DNA 条形码的一个额外的、增强的价值,用于使用大型数据集改进更高层次的系统学。[比拉比罗;DNA条形码;不确定性;基佩奥;狼科; 缺失数据; 系统基因组学;系统发育; 多毛虫; 超矩阵;系统学;分类] 这项研究确定了 DNA 条形码的一个额外的、增强的价值,用于使用大型数据集改进更高层次的系统学。[比拉比罗;DNA条形码;不确定性;基佩奥;狼科; 缺失数据; 系统基因组学;系统发育; 多毛虫; 超矩阵;系统学;分类]
更新日期:2021-05-21
down
wechat
bug