当前位置: X-MOL 学术Syst. Biol. › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
Accurate Inference of Tree Topologies from Multiple Sequence Alignments Using Deep Learning
Systematic Biology ( IF 6.5 ) Pub Date : 2019-09-03 , DOI: 10.1093/sysbio/syz060
Anton Suvorov 1 , Joshua Hochuli 2 , Daniel R Schrider 2
Affiliation  

Reconstructing the phylogenetic relationships between species is one of the most formidable tasks in evolutionary biology. Multiple methods exist to reconstruct phylogenetic trees, each with their own strengths and weaknesses. Both simulation and empirical studies have identified several "zones" of parameter space where accuracy of some methods can plummet, even for four-taxon trees. Further, some methods can have undesirable statistical properties such as statistical inconsistency and/or the tendency to be positively misleading (i.e. assert strong support for the incorrect tree topology). Recently, deep learning techniques have made inroads on a number of both new and longstanding problems in biological research. Here we designed a deep convolutional neural network (CNN) to infer quartet topologies from multiple sequence alignments. This CNN can readily be trained to make inferences using both gapped and ungapped data. We show that our approach is highly accurate on simulated data, often outperforming traditional methods, and is remarkably robust to bias-inducing regions of parameter space such as the Felsenstein zone and the Farris zone. We also demonstrate that the confidence scores produced by our CNN can more accurately assess support for the chosen topology than bootstrap and posterior probability scores from traditional methods. While numerous practical challenges remain, these findings suggest that deep learning approaches such as ours have the potential to produce more accurate phylogenetic inferences.

中文翻译:

使用深度学习从多个序列比对中准确推断树拓扑

重建物种之间的系统发育关系是进化生物学中最艰巨的任务之一。存在多种方法来重建系统发育树,每种方法都有自己的优点和缺点。模拟和实证研究都确定了参数空间的几个“区域”,其中一些方法的准确性可能会下降,即使对于四类群树也是如此。此外,一些方法可能具有不希望的统计特性,例如统计不一致和/或具有正面误导的倾向(即对不正确的树拓扑断言强烈支持)。最近,深度学习技术已经在生物学研究中的许多新问题和长期存在的问题上取得了进展。在这里,我们设计了一个深度卷积神经网络 (CNN) 来从多个序列比对中推断出四重奏拓扑。可以很容易地训练这个 CNN 使用有间隙和无间隙的数据进行推理。我们表明我们的方法在模拟数据上非常准确,通常优于传统方法,并且对参数空间的偏差诱导区域(例如 Felsenstein 区域和 Farris 区域)非常稳健。我们还证明了我们的 CNN 产生的置信度分数可以比传统方法的 bootstrap 和后验概率分数更准确地评估对所选拓扑的支持。尽管仍有许多实际挑战,但这些发现表明,像我们这样的深度学习方法有可能产生更准确的系统发育推断。通常优于传统方法,并且对参数空间的偏差诱导区域(例如 Felsenstein 区域和 Farris 区域)非常稳健。我们还证明了我们的 CNN 产生的置信度分数可以比传统方法的 bootstrap 和后验概率分数更准确地评估对所选拓扑的支持。尽管仍有许多实际挑战,但这些发现表明,像我们这样的深度学习方法有可能产生更准确的系统发育推断。通常优于传统方法,并且对参数空间的偏差诱导区域(例如 Felsenstein 区域和 Farris 区域)非常稳健。我们还证明了我们的 CNN 产生的置信度分数可以比传统方法的 bootstrap 和后验概率分数更准确地评估对所选拓扑的支持。尽管仍有许多实际挑战,但这些发现表明,像我们这样的深度学习方法有可能产生更准确的系统发育推断。我们还证明了我们的 CNN 产生的置信度分数可以比传统方法的 bootstrap 和后验概率分数更准确地评估对所选拓扑的支持。尽管仍有许多实际挑战,但这些发现表明,像我们这样的深度学习方法有可能产生更准确的系统发育推断。我们还证明了我们的 CNN 产生的置信度分数可以比传统方法的 bootstrap 和后验概率分数更准确地评估对所选拓扑的支持。尽管仍有许多实际挑战,但这些发现表明,像我们这样的深度学习方法有可能产生更准确的系统发育推断。
更新日期:2019-09-03
down
wechat
bug