当前位置: X-MOL 学术arXiv.cs.FL › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
Novel Results on the Number of Runs of the Burrows-Wheeler-Transform
arXiv - CS - Formal Languages and Automata Theory Pub Date : 2020-08-19 , DOI: arxiv-2008.08506
Sara Giuliani and Shunsuke Inenaga and Zsuzsanna Lipt\'ak and Nicola Prezza and Marinella Sciortino and Anna Toffanello

The Burrows-Wheeler-Transform (BWT), a reversible string transformation, is one of the fundamental components of many current data structures in string processing. It is central in data compression, as well as in efficient query algorithms for sequence data, such as webpages, genomic and other biological sequences, or indeed any textual data. The BWT lends itself well to compression because its number of equal-letter-runs (usually referred to as $r$) is often considerably lower than that of the original string; in particular, it is well suited for strings with many repeated factors. In fact, much attention has been paid to the $r$ parameter as measure of repetitiveness, especially to evaluate the performance in terms of both space and time of compressed indexing data structures. In this paper, we investigate $\rho(v)$, the ratio of $r$ and of the number of runs of the BWT of the reverse of $v$. Kempa and Kociumaka [FOCS 2020] gave the first non-trivial upper bound as $\rho(v) = O(\log^2(n))$, for any string $v$ of length $n$. However, nothing is known about the tightness of this upper bound. We present infinite families of binary strings for which $\rho(v) = \Theta(\log n)$ holds, thus giving the first non-trivial lower bound on $\rho(n)$, the maximum over all strings of length $n$. Our results suggest that $r$ is not an ideal measure of the repetitiveness of the string, since the number of repeated factors is invariant between the string and its reverse. We believe that there is a more intricate relationship between the number of runs of the BWT and the string's combinatorial properties.

中文翻译:

Burrows-Wheeler-Transform 运行次数的新结果

Burrows-Wheeler-Transform (BWT) 是一种可逆的字符串转换,是当前字符串处理中许多数据结构的基本组成部分之一。它是数据压缩以及序列数据(如网页、基因组和其他生物序列)或任何文本数据的高效查询算法的核心。BWT 非常适合压缩,因为它的相等字母运行的数量(通常称为 $r$)通常比原始字符串的数量少得多;特别是,它非常适合具有许多重复因子的字符串。事实上,作为重复性度量的 $r$ 参数已经得到了很多关注,特别是在压缩索引数据结构的空间和时间方面评估性能。在本文中,我们研究了 $\rho(v)$,$r$ 与反向 $v$ 的 BWT 运行次数的比率。Kempa 和 Kociumaka [FOCS 2020] 给出了第一个非平凡的上限为 $\rho(v) = O(\log^2(n))$,对于任何长度为 $n$ 的字符串 $v$。然而,我们对这个上限的紧密程度一无所知。我们提出了 $\rho(v) = \Theta(\log n)$ 持有的无限二进制字符串族,从而给出了 $\rho(n)$ 的第一个非平凡下界,即所有字符串的最大值长度 $n$。我们的结果表明 $r$ 不是字符串重复性的理想度量,因为重复因子的数量在字符串与其反向之间是不变的。我们认为 BWT 的运行次数与字符串的组合属性之间存在更复杂的关系。Kempa 和 Kociumaka [FOCS 2020] 给出了第一个非平凡的上限为 $\rho(v) = O(\log^2(n))$,对于任何长度为 $n$ 的字符串 $v$。然而,我们对这个上限的紧密程度一无所知。我们给出了 $\rho(v) = \Theta(\log n)$ 持有的无限二进制字符串族,从而给出了 $\rho(n)$ 的第一个非平凡下界,即所有字符串的最大值长度 $n$。我们的结果表明 $r$ 不是字符串重复性的理想度量,因为重复因子的数量在字符串与其反向之间是不变的。我们认为 BWT 的运行次数与字符串的组合属性之间存在更复杂的关系。Kempa 和 Kociumaka [FOCS 2020] 给出了第一个非平凡的上限为 $\rho(v) = O(\log^2(n))$,对于任何长度为 $n$ 的字符串 $v$。然而,我们对这个上限的紧密程度一无所知。我们提出了 $\rho(v) = \Theta(\log n)$ 持有的无限二进制字符串族,从而给出了 $\rho(n)$ 的第一个非平凡下界,即所有字符串的最大值长度 $n$。我们的结果表明 $r$ 不是字符串重复性的理想度量,因为重复因子的数量在字符串与其反向之间是不变的。我们认为 BWT 的运行次数与字符串的组合属性之间存在更复杂的关系。对这个上限的紧密程度一无所知。我们提出了 $\rho(v) = \Theta(\log n)$ 持有的无限二进制字符串族,从而给出了 $\rho(n)$ 的第一个非平凡下界,即所有字符串的最大值长度 $n$。我们的结果表明 $r$ 不是字符串重复性的理想度量,因为重复因子的数量在字符串与其反向之间是不变的。我们认为 BWT 的运行次数与字符串的组合属性之间存在更复杂的关系。对这个上限的紧密程度一无所知。我们提出了 $\rho(v) = \Theta(\log n)$ 持有的无限二进制字符串族,从而给出了 $\rho(n)$ 的第一个非平凡下界,即所有字符串的最大值长度 $n$。我们的结果表明 $r$ 不是字符串重复性的理想度量,因为重复因子的数量在字符串与其反向之间是不变的。我们认为 BWT 的运行次数与字符串的组合属性之间存在更复杂的关系。我们的结果表明 $r$ 不是字符串重复性的理想度量,因为重复因子的数量在字符串与其反向之间是不变的。我们认为 BWT 的运行次数与字符串的组合属性之间存在更复杂的关系。我们的结果表明 $r$ 不是字符串重复性的理想度量,因为重复因子的数量在字符串与其反向之间是不变的。我们认为 BWT 的运行次数与字符串的组合属性之间存在更复杂的关系。
更新日期:2020-08-21
down
wechat
bug