当前位置: X-MOL 学术arXiv.cs.DB › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
Coconut: sortable summarizations for scalable indexes over static and streaming data series
arXiv - CS - Databases Pub Date : 2020-06-20 , DOI: arxiv-2006.11474
Haridimos Kondylakis, Niv Dayan, Kostas Zoumpatianos, Themis Palpanas

Many modern applications produce massive streams of data series that need to be analyzed, requiring efficient similarity search operations. However, the state-of-the-art data series indexes that are used for this purpose do not scale well for massive datasets in terms of performance, or storage costs. We pinpoint the problem to the fact that existing summarizations of data series used for indexing cannot be sorted while keeping similar data series close to each other in the sorted order. To address this problem, we present Coconut, the first data series index based on sortable summarizations and the first efficient solution for indexing and querying streaming series. The first innovation in Coconut is an inverted, sortable data series summarization that organizes data series based on a z-order curve, keeping similar series close to each other in the sorted order. As a result, Coconut is able to use bulk loading and updating techniques that rely on sorting to quickly build and maintain a contiguous index using large sequential disk I/Os. We then explore prefix-based and median-based splitting policies for bottom-up bulk loading, showing that median-based splitting outperforms the state of the art, ensuring that all nodes are densely populated. Finally, we explore the impact of sortable summarizations on variable-sized window queries, showing that they can be supported in the presence of updates through efficient merging of temporal partitions. Overall, we show analytically and empirically that Coconut dominates the state-of-the-art data series indexes in terms of construction speed, query speed, and storage costs.

中文翻译:

Coconut:静态和流数据系列上可伸缩索引的可排序摘要

许多现代应用程序产生大量需要分析的数据系列流,需要高效的相似性搜索操作。但是,用于此目的的最先进的数据系列索引在性能或存储成本方面不能很好地扩展海量数据集。我们指出问题在于,用于索引的数据系列的现有摘要无法排序,同时在排序顺序中保持相似的数据系列彼此接近。为了解决这个问题,我们提出了 Coconut,它是第一个基于可排序摘要的数据系列索引,也是第一个对流系列进行索引和查询的有效解决方案。Coconut 的第一个创新是倒置的、可排序的数据系列汇总,它根据 z 顺序曲线组织数据系列,使相似的系列按排序顺序彼此靠近。因此,Coconut 能够使用依赖排序的批量加载和更新技术,使用大型顺序磁盘 I/O 快速构建和维护连续索引。然后,我们探索了用于自下而上批量加载的基于前缀和基于中值的拆分策略,表明基于中值的拆分优于现有技术,确保所有节点都密集填充。最后,我们探讨了可排序摘要对可变大小窗口查询的影响,表明它们可以通过有效合并时间分区在存在更新的情况下得到支持。总的来说,我们通过分析和经验表明 Coconut 在构建速度、查询速度和存储成本方面主导了最先进的数据系列索引。Coconut 能够使用依赖排序的批量加载和更新技术,使用大型顺序磁盘 I/O 快速构建和维护连续索引。然后,我们探索了用于自下而上批量加载的基于前缀和基于中值的拆分策略,表明基于中值的拆分优于现有技术,确保所有节点都密集填充。最后,我们探讨了可排序摘要对可变大小窗口查询的影响,表明它们可以通过有效合并时间分区在存在更新的情况下得到支持。总的来说,我们通过分析和经验表明 Coconut 在构建速度、查询速度和存储成本方面主导了最先进的数据系列索引。Coconut 能够使用依赖排序的批量加载和更新技术,使用大型顺序磁盘 I/O 快速构建和维护连续索引。然后,我们探索了用于自下而上批量加载的基于前缀和基于中值的拆分策略,表明基于中值的拆分优于现有技术,确保所有节点都密集填充。最后,我们探讨了可排序摘要对可变大小窗口查询的影响,表明它们可以通过有效合并时间分区在存在更新的情况下得到支持。总的来说,我们通过分析和经验表明 Coconut 在构建速度、查询速度和存储成本方面主导了最先进的数据系列索引。然后,我们探索了用于自下而上批量加载的基于前缀和基于中值的拆分策略,表明基于中值的拆分优于现有技术,确保所有节点都密集填充。最后,我们探讨了可排序摘要对可变大小窗口查询的影响,表明它们可以通过有效合并时间分区在存在更新的情况下得到支持。总的来说,我们通过分析和经验表明 Coconut 在构建速度、查询速度和存储成本方面主导了最先进的数据系列索引。然后,我们探索了用于自下而上批量加载的基于前缀和基于中值的拆分策略,表明基于中值的拆分优于现有技术,确保所有节点都密集填充。最后,我们探讨了可排序摘要对可变大小窗口查询的影响,表明它们可以通过有效合并时间分区在存在更新的情况下得到支持。总的来说,我们通过分析和经验表明 Coconut 在构建速度、查询速度和存储成本方面主导了最先进的数据系列索引。表明可以通过有效合并时间分区在存在更新的情况下支持它们。总的来说,我们通过分析和经验表明 Coconut 在构建速度、查询速度和存储成本方面主导了最先进的数据系列索引。表明可以通过有效合并时间分区在存在更新的情况下支持它们。总的来说,我们通过分析和经验表明 Coconut 在构建速度、查询速度和存储成本方面主导了最先进的数据系列索引。
更新日期:2020-06-23
down
wechat
bug