当前位置: X-MOL 学术arXiv.cs.DM › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
Smoothed Analysis of Trie Height by Star-like PFAs
arXiv - CS - Discrete Mathematics Pub Date : 2020-03-09 , DOI: arxiv-2003.04101
Stefan Eckhardt, Sven Kosub, Johannes Nowak

Tries are general purpose data structures for information retrieval. The most significant parameter of a trie is its height $H$ which equals the length of the longest common prefix of any two string in the set $A$ over which the trie is built. Analytical investigations of random tries suggest that ${\bf E}(H)\in O(\log(\|A\|))$, although $H$ is unbounded in the worst case. Moreover, sharp results on the distribution function of $H$ are known for many different random string sources. But because of the inherent weakness of the modeling behind average-case analysis---analyses being dominated by random data---these results can utterly explain the fact that in many practical situations the trie height is logarithmic. We propose a new semi-random string model and perform a smoothed analysis in order to give a mathematically more rigorous explanation for the practical findings. The perturbation functions which we consider are based on probabilistic finite automata (PFA) and we show that the transition probabilities of the representing PFA completely characterize the asymptotic growth of the smoothed trie height. Our main result is of dichotomous nature---logarithmic or unbounded---and is certainly not surprising at first glance, but we also give quantitative upper and lower bounds, which are derived using multivariate generating function in order to express the computations of the perturbing PFA. A direct consequence is the logarithmic trie height for edit perturbations(i.e., random insertions, deletions and substitutions).

中文翻译:

星状 PFA 对 Trie 高度的平滑分析

Tries 是用于信息检索的通用数据结构。trie 最重要的参数是它的高度 $H$,它等于构建 trie 的集合 $A$ 中任何两个字符串的最长公共前缀的长度。随机尝试的分析研究表明 ${\bf E}(H)\in O(\log(\|A\|))$,尽管 $H$ 在最坏的情况下是无界的。此外,对于许多不同的随机字符串源,已知 $H$ 分布函数的尖锐结果。但是由于平均案例分析背后的建模的固有弱点——分析以随机数据为主——这些结果可以完全解释在许多实际情况下,trie 高度是对数的这一事实。我们提出了一个新的半随机字符串模型并进行了平滑分析,以便对实际发现提供数学上更严格的解释。我们考虑的扰动函数基于概率有限自动机 (PFA),我们表明代表 PFA 的转移概率完全表征了平滑特里高度的渐近增长。我们的主要结果是二分性质的——对数的或无界的——乍一看当然并不奇怪,但我们也给出了定量的上限和下限,这些上限和下限是使用多元生成函数导出的,以表达扰乱 PFA。一个直接的结果是编辑扰动(即随机插入、删除和替换)的对数特里高度。我们考虑的扰动函数基于概率有限自动机 (PFA),我们表明代表 PFA 的转移概率完全表征了平滑特里高度的渐近增长。我们的主要结果是二分性质的——对数的或无界的——乍一看当然并不奇怪,但我们也给出了定量的上限和下限,这些上限和下限是使用多元生成函数导出的,以表达扰乱 PFA。一个直接的结果是编辑扰动(即随机插入、删除和替换)的对数特里高度。我们考虑的扰动函数基于概率有限自动机 (PFA),我们表明代表 PFA 的转移概率完全表征了平滑特里高度的渐近增长。我们的主要结果是二分性质的——对数的或无界的——乍一看当然并不奇怪,但我们也给出了定量的上限和下限,这些上限和下限是使用多元生成函数导出的,以表达扰乱 PFA。一个直接的结果是编辑扰动(即随机插入、删除和替换)的对数特里高度。它们是使用多元生成函数导出的,以表达扰动 PFA 的计算。一个直接的结果是编辑扰动(即随机插入、删除和替换)的对数特里高度。它们是使用多元生成函数导出的,以表达扰动 PFA 的计算。一个直接的结果是编辑扰动(即随机插入、删除和替换)的对数特里高度。
更新日期:2020-03-10
down
wechat
bug