当前位置: X-MOL 学术arXiv.cs.DB › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
Updatable Learned Index with Precise Positions
arXiv - CS - Databases Pub Date : 2021-04-12 , DOI: arxiv-2104.05520
Jiacheng Wu, Yong Zhang, Shimin Chen, Jin Wang, Yu Chen, Chunxiao Xing

Index plays an essential role in modern database engines to accelerate the query processing. The new paradigm of ``learned index'' has significantly changed the way of designing index structures in DBMS. The key insight is that indexes could be regarded as learned models that predict the position of a lookup key in the dataset. While such studies show promising results in both lookup time and index size, they cannot efficiently support update operations. Although recent studies have proposed some preliminary approaches to support update, they are at the cost of scarifying the lookup performance as they suffer from the overheads brought by imprecise predictions in the leaf nodes. In this paper, we propose LIPP, a brand new framework of learned index to address such issues. Similar with state-of-the-art learned index structures, LIPP is able to support all kinds of index operations, namely lookup query, range query, insert, delete, update and bulkload. Meanwhile, we overcome the limitations of previous studies by properly extending the tree structure when dealing with update operations so as to eliminate the deviation of location predicted by the models in the leaf nodes. Moreover, we further propose a dynamic adjustment strategy to ensure that the height of the tree index is tightly bounded and provide comprehensive theoretical analysis to illustrate it. We conduct an extensive set of experiments on several real-life and synthetic datasets. The results demonstrate that our method consistently outperforms state-of-the-art solutions, achieving by up to 4x for a broader class of workloads with different index operations.

中文翻译:

具有精确位置的可更新学习索引

索引在现代数据库引擎中为加速查询处理起着至关重要的作用。``学习索引''的新范例极大地改变了DBMS中设计索引结构的方式。关键的见解是,索引可以被视为可预测查找键在数据集中的位置的学习模型。尽管此类研究在查找时间和索引大小上均显示出令人鼓舞的结果,但它们无法有效地支持更新操作。尽管最近的研究提出了一些支持更新的初步方法,但是它们却以牺牲查找性能为代价,因为它们遭受了叶节点中不精确的预测带来的开销。在本文中,我们提出了LIPP,这是一个全新的学习索引框架,可以解决此类问题。与最新的学习型索引结构类似,LIPP能够支持各种索引操作,即查找查询,范围查询,插入,删除,更新和批量加载。同时,我们通过在处理更新操作时适当扩展树结构来克服先前研究的局限性,从而消除了模型在叶节点中预测的位置偏差。此外,我们进一步提出了一种动态调整策略,以确保树索引的高度严格限制,并提供全面的理论分析来说明这一点。我们在几个真实的和合成的数据集上进行了广泛的实验。结果表明,我们的方法始终优于最新的解决方案,对于具有不同索引操作的更广泛的工作负载,其性能提高了4倍。即查找查询,范围查询,插入,删除,更新和批量加载。同时,我们通过在处理更新操作时适当扩展树结构来克服先前研究的局限性,从而消除了模型在叶节点中预测的位置偏差。此外,我们进一步提出了一种动态调整策略,以确保树索引的高度严格限制,并提供全面的理论分析来说明这一点。我们在几个真实的和合成的数据集上进行了广泛的实验。结果表明,我们的方法始终优于最新的解决方案,对于具有不同索引操作的更广泛的工作负载,其性能提高了4倍。即查找查询,范围查询,插入,删除,更新和批量加载。同时,我们通过在处理更新操作时适当扩展树结构来克服先前研究的局限性,从而消除了模型在叶节点中预测的位置偏差。此外,我们进一步提出了一种动态调整策略,以确保树索引的高度严格限制,并提供全面的理论分析来说明这一点。我们在几个真实的和合成的数据集上进行了广泛的实验。结果表明,我们的方法始终优于最新的解决方案,对于具有不同索引操作的更广泛的工作负载,其性能提高了4倍。我们通过在处理更新操作时适当扩展树结构来克服先前研究的局限性,从而消除了模型在叶节点中预测的位置偏差。此外,我们进一步提出了一种动态调整策略,以确保树索引的高度严格限制,并提供全面的理论分析来说明这一点。我们在几个真实的和合成的数据集上进行了广泛的实验。结果表明,我们的方法始终优于最新的解决方案,对于具有不同索引操作的更广泛的工作负载类型,该方法的性能提高了4倍。我们通过在处理更新操作时适当扩展树结构来克服先前研究的局限性,从而消除了模型在叶节点中预测的位置偏差。此外,我们进一步提出了一种动态调整策略,以确保树索引的高度严格限制,并提供全面的理论分析来说明这一点。我们在几个真实的和合成的数据集上进行了广泛的实验。结果表明,我们的方法始终优于最新的解决方案,对于具有不同索引操作的更广泛的工作负载,其性能提高了4倍。我们进一步提出了一种动态调整策略,以确保树索引的高度严格限制,并提供全面的理论分析来说明这一点。我们在几个真实的和合成的数据集上进行了广泛的实验。结果表明,我们的方法始终优于最新的解决方案,对于具有不同索引操作的更广泛的工作负载,其性能提高了4倍。我们进一步提出了一种动态调整策略,以确保树索引的高度严格限制,并提供全面的理论分析来说明这一点。我们在几个真实的和合成的数据集上进行了广泛的实验。结果表明,我们的方法始终优于最新的解决方案,对于具有不同索引操作的更广泛的工作负载,其性能提高了4倍。
更新日期:2021-04-13
down
wechat
bug