当前位置: X-MOL 学术arXiv.cs.DS › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
Pattern Masking for Dictionary Matching
arXiv - CS - Data Structures and Algorithms Pub Date : 2020-06-29 , DOI: arxiv-2006.16137
Panagiotis Charalampopoulos and Huiping Chen and Peter Christen and Grigorios Loukides and Nadia Pisanti and Solon P. Pissis and Jakub Radoszewski

In the Pattern Masking for Dictionary Matching (PMDM) problem, we are given a dictionary $\mathcal{D}$ of $d$ strings, each of length $\ell$, a query string $q$ of length $\ell$, and a positive integer $z$, and we are asked to compute a smallest set $K\subseteq\{1,\ldots,\ell\}$, so that if $q[i]$, for all $i\in K$, is replaced by a wildcard, then $q$ matches at least $z$ strings from $\mathcal{D}$. The PMDM problem lies at the heart of two important applications featured in large-scale real-world systems: record linkage of databases that contain sensitive information, and query term dropping. In both applications, solving PMDM allows for providing data utility guarantees as opposed to existing approaches. We first show, through a reduction from the well-known $k$-Clique problem, that a decision version of the PMDM problem is NP-complete, even for strings over a binary alphabet. We present a data structure for PMDM that answers queries over $\mathcal{D}$ in time $\mathcal{O}(2^{\ell/2}(2^{\ell/2}+\tau)\ell)$ and requires space $\mathcal{O}(2^{\ell}d^2/\tau^2+2^{\ell/2}d)$, for any parameter $\tau\in[1,d]$. We also approach the problem from a more practical perspective. We show an $\mathcal{O}((d\ell)^{k/3}+d\ell)$-time and $\mathcal{O}(d\ell)$-space algorithm for PMDM if $k=|K|=\mathcal{O}(1)$. We generalize our exact algorithm to mask multiple query strings simultaneously. We complement our results by showing a two-way polynomial-time reduction between PMDM and the Minimum Union problem [Chlamt\'{a}\v{c} et al., SODA 2017]. This gives a polynomial-time $\mathcal{O}(d^{1/4+\epsilon})$-approximation algorithm for PMDM, which is tight under plausible complexity conjectures.



在用于字典匹配的模式掩码 (PMDM) 问题中,我们给定了一个包含 $d$ 个字符串的字典 $\mathcal{D}$,每个字符串的长度为 $\ell$,一个查询字符串 $q$ 的长度为 $\ell$ ,和一个正整数 $z$,我们被要求计算一个最小集合 $K\subseteq\{1,\ldots,\ell\}$,这样如果 $q[i]$,对于所有的 $i\在 K$ 中,被通配符替换,然后 $q$ 至少匹配 $\mathcal{D}$ 中的 $z$ 字符串。PMDM 问题是大型现实世界系统中两个重要应用程序的核心:包含敏感信息的数据库的记录链接和查询词删除。在这两种应用中,与现有方法相反,解决 PMDM 允许提供数据效用保证。我们首先证明,通过对众所周知的 $k$-Clique 问题的简化,PMDM 问题的决策版本是 NP 完全的,即使对于二进制字母表上的字符串。我们提出了 PMDM 的数据结构,它可以及时回答 $\mathcal{D}$ 上的查询 $\mathcal{O}(2^{\ell/2}(2^{\ell/2}+\tau)\ell )$ 并且需要空间 $\mathcal{O}(2^{\ell}d^2/\tau^2+2^{\ell/2}d)$,对于任何参数 $\tau\in[1, d]$。我们还从更实际的角度来解决这个问题。我们展示了 $\mathcal{O}((d\ell)^{k/3}+d\ell)$-time 和 $\mathcal{O}(d\ell)$-space 算法用于 PMDM 如果 $k =|K|=\mathcal{O}(1)$。我们推广我们的精确算法以同时屏蔽多个查询字符串。我们通过显示 PMDM 和最小联合问题之间的双向多项式时间减少来补充我们的结果 [Chlamt\'{a}\v{c} 等人,SODA 2017]。这给出了 PMDM 的多项式时间 $\mathcal{O}(d^{1/4+\epsilon})$-近似算法,在合理的复杂性猜想下它是严格的。我们提出了 PMDM 的数据结构,它可以及时回答 $\mathcal{D}$ 上的查询 $\mathcal{O}(2^{\ell/2}(2^{\ell/2}+\tau)\ell )$ 并且需要空间 $\mathcal{O}(2^{\ell}d^2/\tau^2+2^{\ell/2}d)$,对于任何参数 $\tau\in[1, d]$。我们还从更实际的角度来解决这个问题。我们展示了 $\mathcal{O}((d\ell)^{k/3}+d\ell)$-time 和 $\mathcal{O}(d\ell)$-space 算法用于 PMDM 如果 $k =|K|=\mathcal{O}(1)$。我们推广我们的精确算法以同时屏蔽多个查询字符串。我们通过显示 PMDM 和最小联合问题之间的双向多项式时间减少来补充我们的结果 [Chlamt\'{a}\v{c} 等人,SODA 2017]。这给出了 PMDM 的多项式时间 $\mathcal{O}(d^{1/4+\epsilon})$-近似算法,在合理的复杂性猜想下它是严格的。我们提出了 PMDM 的数据结构,它可以及时回答 $\mathcal{D}$ 上的查询 $\mathcal{O}(2^{\ell/2}(2^{\ell/2}+\tau)\ell )$ 并且需要空间 $\mathcal{O}(2^{\ell}d^2/\tau^2+2^{\ell/2}d)$,对于任何参数 $\tau\in[1, d]$。我们还从更实际的角度来解决这个问题。我们展示了 $\mathcal{O}((d\ell)^{k/3}+d\ell)$-time 和 $\mathcal{O}(d\ell)$-space 算法用于 PMDM 如果 $k =|K|=\mathcal{O}(1)$。我们推广我们的精确算法以同时屏蔽多个查询字符串。我们通过显示 PMDM 和最小联合问题之间的双向多项式时间减少来补充我们的结果 [Chlamt\'{a}\v{c} 等人,SODA 2017]。这给出了 PMDM 的多项式时间 $\mathcal{O}(d^{1/4+\epsilon})$-近似算法,在合理的复杂性猜想下它是严格的。我们展示了 $\mathcal{O}((d\ell)^{k/3}+d\ell)$-time 和 $\mathcal{O}(d\ell)$-space 算法用于 PMDM 如果 $k =|K|=\mathcal{O}(1)$。我们推广我们的精确算法以同时屏蔽多个查询字符串。我们通过显示 PMDM 和最小联合问题之间的双向多项式时间减少来补充我们的结果 [Chlamt\'{a}\v{c} 等人,SODA 2017]。这给出了 PMDM 的多项式时间 $\mathcal{O}(d^{1/4+\epsilon})$-近似算法,在合理的复杂性猜想下它是严格的。我们展示了 $\mathcal{O}((d\ell)^{k/3}+d\ell)$-time 和 $\mathcal{O}(d\ell)$-space 算法用于 PMDM 如果 $k =|K|=\mathcal{O}(1)$。我们推广我们的精确算法以同时屏蔽多个查询字符串。我们通过显示 PMDM 和最小联合问题之间的双向多项式时间减少来补充我们的结果 [Chlamt\'{a}\v{c} 等人,SODA 2017]。这给出了 PMDM 的多项式时间 $\mathcal{O}(d^{1/4+\epsilon})$-近似算法,在合理的复杂性猜想下它是严格的。