当前位置:
X-MOL 学术
›
arXiv.cs.DB
›
论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
Dynamic Enumeration of Similarity Joins
arXiv - CS - Databases Pub Date : 2021-05-05 , DOI: arxiv-2105.01818 Pankaj K. Agarwal, Xiao Hu, Stavros Sintos, Jun Yang
arXiv - CS - Databases Pub Date : 2021-05-05 , DOI: arxiv-2105.01818 Pankaj K. Agarwal, Xiao Hu, Stavros Sintos, Jun Yang
This paper considers enumerating answers to similarity-join queries under
dynamic updates: Given two sets of $n$ points $A,B$ in $\mathbb{R}^d$, a metric
$\phi(\cdot)$, and a distance threshold $r > 0$, report all pairs of points
$(a, b) \in A \times B$ with $\phi(a,b) \le r$. Our goal is to store $A,B$ into
a dynamic data structure that, whenever asked, can enumerate all result pairs
with worst-case delay guarantee, i.e., the time between enumerating two
consecutive pairs is bounded. Furthermore, the data structure can be
efficiently updated when a point is inserted into or deleted from $A$ or $B$. We propose several efficient data structures for answering similarity-join
queries in low dimension. For exact enumeration of similarity join, we present
near-linear-size data structures for $\ell_1, \ell_\infty$ metrics with
$\log^{O(1)} n$ update time and delay. We show that such a data structure is
not feasible for the $\ell_2$ metric for $d \ge 4$. For approximate enumeration
of similarity join, where the distance threshold is a soft constraint, we
obtain a unified linear-size data structure for $\ell_p$ metric, with
$\log^{O(1)} n$ delay and update time. In high dimensions, we present an
efficient data structure with worst-case delay-guarantee using locality
sensitive hashing (LSH).
中文翻译:
相似联接的动态枚举
本文考虑枚举动态更新下的相似联接查询的答案:给定$ \ mathbb {R} ^ d $中的两个$ n $点$ A,B $,度量$ \ phi(\ cdot)$,以及距离阈值$ r> 0 $,报告所有对点$(a,b)\在A \时间B $中具有$ \ phi(a,b)\ le r $。我们的目标是将$ A,B $存储到动态数据结构中,每当被问到时,它都可以枚举具有最坏情况延迟保证的所有结果对,即,枚举两个连续对之间的时间是有界的。此外,当将点插入到$ A $或$ B $中或从$ A $或$ B $中删除时,可以有效地更新数据结构。我们提出了几种有效的数据结构,用于在低维情况下回答相似性联接查询。为了精确枚举相似性联接,我们给出了$ \ ell_1的近似线性大小的数据结构,\ ell_ \ infty $指标,其中$ \ log ^ {O(1)} n $更新时间和延迟。我们表明,这种数据结构对于$ d \ ge 4 $的$ \ ell_2 $度量标准是不可行的。对于相似连接的近似枚举,其中距离阈值是一个软约束,我们为$ \ ell_p $度量获取统一的线性大小数据结构,并具有$ \ log ^ {O(1)} n $延迟和更新时间。在高维度上,我们使用局部敏感哈希(LSH)提出了一种有效的数据结构,具有最坏情况的延迟保证。
更新日期:2021-05-06
中文翻译:
相似联接的动态枚举
本文考虑枚举动态更新下的相似联接查询的答案:给定$ \ mathbb {R} ^ d $中的两个$ n $点$ A,B $,度量$ \ phi(\ cdot)$,以及距离阈值$ r> 0 $,报告所有对点$(a,b)\在A \时间B $中具有$ \ phi(a,b)\ le r $。我们的目标是将$ A,B $存储到动态数据结构中,每当被问到时,它都可以枚举具有最坏情况延迟保证的所有结果对,即,枚举两个连续对之间的时间是有界的。此外,当将点插入到$ A $或$ B $中或从$ A $或$ B $中删除时,可以有效地更新数据结构。我们提出了几种有效的数据结构,用于在低维情况下回答相似性联接查询。为了精确枚举相似性联接,我们给出了$ \ ell_1的近似线性大小的数据结构,\ ell_ \ infty $指标,其中$ \ log ^ {O(1)} n $更新时间和延迟。我们表明,这种数据结构对于$ d \ ge 4 $的$ \ ell_2 $度量标准是不可行的。对于相似连接的近似枚举,其中距离阈值是一个软约束,我们为$ \ ell_p $度量获取统一的线性大小数据结构,并具有$ \ log ^ {O(1)} n $延迟和更新时间。在高维度上,我们使用局部敏感哈希(LSH)提出了一种有效的数据结构,具有最坏情况的延迟保证。