当前位置: X-MOL 学术VLDB J. › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
Internal and external memory set containment join
The VLDB Journal ( IF 4.2 ) Pub Date : 2021-02-23 , DOI: 10.1007/s00778-020-00644-3
Chengcheng Yang , Dong Deng , Shuo Shang , Fan Zhu , Li Liu , Ling Shao

A set containment join operates on two set-valued attributes with a subset (\(\subseteq \)) relationship as the join condition. It has many real-world applications, such as in publish/subscribe services and inclusion dependency discovery. Existing solutions can be broadly classified into union-oriented and intersection-oriented methods. Based on several recent studies, union-oriented methods are not competitive as they involve an expensive subset enumeration step. Intersection-oriented methods build an inverted index on one attribute and perform inverted list intersection on another attribute. Existing intersection-oriented methods intersect inverted lists one-by-one. In contrast, in this paper, we propose to intersect all the inverted lists simultaneously while skipping many irrelevant entries in the lists. To share computation, we utilize the prefix tree structure and extend our novel list intersection method to operate on the prefix tree. To further improve the efficiency, we propose to partition the data and process each partition separately. Each partition will be associated with a much smaller inverted index, and the set containment join cost can be significantly reduced. Moreover, to support large-scale datasets that are beyond the available memory space, we develop a novel adaptive data partition method that is designed to fully leverage the available memory and achieve high I/O efficiency, and thereby exhibiting outstanding performance for external memory set containment join. We evaluate our methods using both real-world and synthetic datasets. Experimental results demonstrate that our method outperforms state-of-the-art methods by up to 10\(\times \) when the dataset is completely resided in memory. Furthermore, our approach achieves up to two orders of magnitude improvement on I/O efficiency compared with a baseline method when the dataset size exceeds the main memory space.



中文翻译:

内部和外部存储集包含联接

集合包含联接对带有子集(\(\ subseteq \)的两个集合值属性进行操作)关系作为加入条件。它具有许多实际应用程序,例如发布/订阅服务和包含依赖项发现中的应用程序。现有解决方案可大致分为面向联合和交叉的方法。根据最近的一些研究,面向工会的方法没有竞争力,因为它们涉及到昂贵的子集枚举步骤。面向交集的方法在一个属性上建立反向索引,并在另一属性上执行反向列表交集。现有的面向交集的方法将倒排列表一一相交。相反,在本文中,我们建议同时交叉所有反向列表,同时跳过列表中许多不相关的条目。要共享计算,我们利用前缀树结构并扩展了我们新颖的列表交集方法,以对前缀树进行操作。为了进一步提高效率,我们建议对数据进行分区并分别处理每个分区。每个分区都将关联一个更小的倒排索引,并且可以显着降低集合的包含连接成本。此外,为了支持超出可用内存空间的大规模数据集,我们开发了一种新颖的自适应数据分区方法,该方法旨在充分利用可用内存并实现高I / O效率,从而为外部内存集展现出色的性能。遏制联接。我们使用真实数据集和综合数据集来评估我们的方法。实验结果表明,我们的方法比最新方法高出10倍 为了进一步提高效率,我们建议对数据进行分区并分别处理每个分区。每个分区都将关联一个更小的倒排索引,并且可以显着降低集合的包含连接成本。此外,为了支持超出可用内存空间的大规模数据集,我们开发了一种新颖的自适应数据分区方法,该方法旨在充分利用可用内存并实现高I / O效率,从而为外部内存集展现出色的性能。遏制联接。我们使用真实数据集和综合数据集来评估我们的方法。实验结果表明,我们的方法比最新方法高出10倍 为了进一步提高效率,我们建议对数据进行分区并分别处理每个分区。每个分区都将关联一个更小的倒排索引,并且可以显着降低集合的包含连接成本。此外,为了支持超出可用内存空间的大规模数据集,我们开发了一种新颖的自适应数据分区方法,该方法旨在充分利用可用内存并实现高I / O效率,从而为外部内存集展现出色的性能。遏制联接。我们使用真实数据集和综合数据集来评估我们的方法。实验结果表明,我们的方法比最新方法高出10倍 每个分区将与一个更小的倒排索引关联,并且可以显着降低集合的包含连接成本。此外,为了支持超出可用内存空间的大规模数据集,我们开发了一种新颖的自适应数据分区方法,该方法旨在充分利用可用内存并实现高I / O效率,从而为外部内存集展现出色的性能。遏制联接。我们使用真实数据集和综合数据集来评估我们的方法。实验结果表明,我们的方法比最新方法高出10倍 每个分区都将关联一个更小的倒排索引,并且可以显着降低集合的包含连接成本。此外,为了支持超出可用内存空间的大规模数据集,我们开发了一种新颖的自适应数据分区方法,该方法旨在充分利用可用内存并实现高I / O效率,从而为外部内存集展现出色的性能。遏制联接。我们使用真实数据集和综合数据集来评估我们的方法。实验结果表明,我们的方法比最新方法高出10倍 我们开发了一种新颖的自适应数据分区方法,该方法旨在充分利用可用内存并实现高I / O效率,从而在外部内存集包含联接方面表现出出色的性能。我们使用真实数据集和综合数据集来评估我们的方法。实验结果表明,我们的方法比最新方法高出10倍 我们开发了一种新颖的自适应数据分区方法,该方法旨在充分利用可用内存并实现高I / O效率,从而在外部内存集包含联接方面表现出出色的性能。我们使用真实数据集和综合数据集来评估我们的方法。实验结果表明,我们的方法比最新方法高出10倍数据集完全驻留在内存中时\(\ times \)。此外,当数据集大小超过主内存空间时,与基线方法相比,我们的方法可将I / O效率提高多达两个数量级。

更新日期:2021-02-23
down
wechat
bug