当前位置: X-MOL 学术arXiv.cs.DS › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
LinearFold: linear-time approximate RNA folding by 5'-to-3' dynamic programming and beam search
arXiv - CS - Data Structures and Algorithms Pub Date : 2019-12-22 , DOI: arxiv-2001.04020
Liang Huang, He Zhang, Dezhong Deng, Kai Zhao, Kaibo Liu, David A. Hendrix, David H. Mathews

Motivation: Predicting the secondary structure of an RNA sequence is useful in many applications. Existing algorithms (based on dynamic programming) suffer from a major limitation: their runtimes scale cubically with the RNA length, and this slowness limits their use in genome-wide applications. Results: We present a novel alternative $O(n^3)$-time dynamic programming algorithm for RNA folding that is amenable to heuristics that make it run in $O(n)$ time and $O(n)$ space, while producing a high-quality approximation to the optimal solution. Inspired by incremental parsing for context-free grammars in computational linguistics, our alternative dynamic programming algorithm scans the sequence in a left-to-right (5'-to-3') direction rather than in a bottom-up fashion, which allows us to employ the effective beam pruning heuristic. Our work, though inexact, is the first RNA folding algorithm to achieve linear runtime (and linear space) without imposing constraints on the output structure. Surprisingly, our approximate search results in even higher overall accuracy on a diverse database of sequences with known structures. More interestingly, it leads to significantly more accurate predictions on the longest sequence families in that database (16S and 23S Ribosomal RNAs), as well as improved accuracies for long-range base pairs (500+ nucleotides apart), both of which are well known to be challenging for the current models. Availability: Our source code is available at https://github.com/LinearFold/LinearFold, and our webserver is at http://linearfold.org (sequence limit: 100,000nt).

中文翻译:

LinearFold:通过 5' 到 3' 动态规划和波束搜索的线性时间近似 RNA 折叠

动机:预测 RNA 序列的二级结构在许多应用中都很有用。现有算法(基于动态编程)存在一个主要限制:它们的运行时间与 RNA 长度呈立方关系,这种缓慢限制了它们在全基因组应用中的使用。结果:我们提出了一种新颖的替代 $O(n^3)$ 时间的 RNA 折叠动态规划算法,该算法适合启发式算法,使其在 $O(n)$ 时间和 $O(n)$ 空间中运行,而生成最优解的高质量近似值。受计算语言学中上下文无关文法增量解析的启发,我们的替代动态编程算法以从左到右 (5'-to-3') 的方向而不是自下而上的方式扫描序列,这使我们能够使用有效的波束修剪启发式方法。我们的工作,虽然不精确,但它是第一个实现线性运行时间(和线性空间)而不对输出结构施加约束的 RNA 折叠算法。令人惊讶的是,我们的近似搜索在具有已知结构的不同序列数据库上产生了更高的整体准确度。更有趣的是,它导致对该数据库中最长序列家族(16S 和 23S 核糖体 RNA)的预测更加准确,并提高了长距离碱基对(相距 500 多个核苷酸)的准确度,这两者都是众所周知的对当前模型具有挑战性。可用性:我们的源代码位于 https://github.com/LinearFold/LinearFold,我们的网络服务器位于 http://linearfold.org(序列限制:100,000nt)。是第一个实现线性运行时间(和线性空间)而不对输出结构施加约束的 RNA 折叠算法。令人惊讶的是,我们的近似搜索在具有已知结构的不同序列数据库上产生了更高的整体准确度。更有趣的是,它导致对该数据库中最长序列家族(16S 和 23S 核糖体 RNA)的预测更加准确,并提高了长距离碱基对(相距 500 多个核苷酸)的准确度,这两者都是众所周知的对当前模型具有挑战性。可用性:我们的源代码位于 https://github.com/LinearFold/LinearFold,我们的网络服务器位于 http://linearfold.org(序列限制:100,000nt)。是第一个实现线性运行时间(和线性空间)而不对输出结构施加约束的 RNA 折叠算法。令人惊讶的是,我们的近似搜索在具有已知结构的不同序列数据库上产生了更高的整体准确度。更有趣的是,它导致对该数据库中最长序列家族(16S 和 23S 核糖体 RNA)的预测更加准确,并提高了长距离碱基对(相距 500 多个核苷酸)的准确度,这两者都是众所周知的对当前模型具有挑战性。可用性:我们的源代码位于 https://github.com/LinearFold/LinearFold,我们的网络服务器位于 http://linearfold.org(序列限制:100,000nt)。我们的近似搜索结果在具有已知结构的不同序列数据库上具有更高的整体准确度。更有趣的是,它导致对该数据库中最长序列家族(16S 和 23S 核糖体 RNA)的预测更加准确,并提高了长距离碱基对(相距 500 多个核苷酸)的准确度,这两者都是众所周知的对当前模型具有挑战性。可用性:我们的源代码位于 https://github.com/LinearFold/LinearFold,我们的网络服务器位于 http://linearfold.org(序列限制:100,000nt)。我们的近似搜索结果在具有已知结构的不同序列数据库上具有更高的整体准确度。更有趣的是,它导致对该数据库中最长序列家族(16S 和 23S 核糖体 RNA)的预测更加准确,并提高了长距离碱基对(相距 500 多个核苷酸)的准确度,这两者都是众所周知的对当前模型具有挑战性。可用性:我们的源代码位于 https://github.com/LinearFold/LinearFold,我们的网络服务器位于 http://linearfold.org(序列限制:100,000nt)。以及提高长距离碱基对(相距 500 多个核苷酸)的准确性,众所周知,这两者对当前模型都具有挑战性。可用性:我们的源代码位于 https://github.com/LinearFold/LinearFold,我们的网络服务器位于 http://linearfold.org(序列限制:100,000nt)。以及提高长距离碱基对(相距 500 多个核苷酸)的准确性,众所周知,这两者对当前模型都具有挑战性。可用性:我们的源代码位于 https://github.com/LinearFold/LinearFold,我们的网络服务器位于 http://linearfold.org(序列限制:100,000nt)。
更新日期:2020-01-14
down
wechat
bug