当前位置:
X-MOL 学术
›
arXiv.cs.DB
›
论文详情
Our official English website, www.x-mol.net, welcomes your
feedback! (Note: you will need to create a separate account there.)
Updatable Learned Index with Precise Positions
arXiv - CS - Databases Pub Date : 2021-04-12 , DOI: arxiv-2104.05520 Jiacheng Wu, Yong Zhang, Shimin Chen, Jin Wang, Yu Chen, Chunxiao Xing
arXiv - CS - Databases Pub Date : 2021-04-12 , DOI: arxiv-2104.05520 Jiacheng Wu, Yong Zhang, Shimin Chen, Jin Wang, Yu Chen, Chunxiao Xing
Index plays an essential role in modern database engines to accelerate the
query processing. The new paradigm of ``learned index'' has significantly
changed the way of designing index structures in DBMS. The key insight is that
indexes could be regarded as learned models that predict the position of a
lookup key in the dataset. While such studies show promising results in both
lookup time and index size, they cannot efficiently support update operations.
Although recent studies have proposed some preliminary approaches to support
update, they are at the cost of scarifying the lookup performance as they
suffer from the overheads brought by imprecise predictions in the leaf nodes. In this paper, we propose LIPP, a brand new framework of learned index to
address such issues. Similar with state-of-the-art learned index structures,
LIPP is able to support all kinds of index operations, namely lookup query,
range query, insert, delete, update and bulkload. Meanwhile, we overcome the
limitations of previous studies by properly extending the tree structure when
dealing with update operations so as to eliminate the deviation of location
predicted by the models in the leaf nodes. Moreover, we further propose a
dynamic adjustment strategy to ensure that the height of the tree index is
tightly bounded and provide comprehensive theoretical analysis to illustrate
it. We conduct an extensive set of experiments on several real-life and
synthetic datasets. The results demonstrate that our method consistently
outperforms state-of-the-art solutions, achieving by up to 4x for a broader
class of workloads with different index operations.
中文翻译:
具有精确位置的可更新学习索引
索引在现代数据库引擎中为加速查询处理起着至关重要的作用。``学习索引''的新范例极大地改变了DBMS中设计索引结构的方式。关键的见解是,索引可以被视为可预测查找键在数据集中的位置的学习模型。尽管此类研究在查找时间和索引大小上均显示出令人鼓舞的结果,但它们无法有效地支持更新操作。尽管最近的研究提出了一些支持更新的初步方法,但是它们却以牺牲查找性能为代价,因为它们遭受了叶节点中不精确的预测带来的开销。在本文中,我们提出了LIPP,这是一个全新的学习索引框架,可以解决此类问题。与最新的学习型索引结构类似,LIPP能够支持各种索引操作,即查找查询,范围查询,插入,删除,更新和批量加载。同时,我们通过在处理更新操作时适当扩展树结构来克服先前研究的局限性,从而消除了模型在叶节点中预测的位置偏差。此外,我们进一步提出了一种动态调整策略,以确保树索引的高度严格限制,并提供全面的理论分析来说明这一点。我们在几个真实的和合成的数据集上进行了广泛的实验。结果表明,我们的方法始终优于最新的解决方案,对于具有不同索引操作的更广泛的工作负载,其性能提高了4倍。即查找查询,范围查询,插入,删除,更新和批量加载。同时,我们通过在处理更新操作时适当扩展树结构来克服先前研究的局限性,从而消除了模型在叶节点中预测的位置偏差。此外,我们进一步提出了一种动态调整策略,以确保树索引的高度严格限制,并提供全面的理论分析来说明这一点。我们在几个真实的和合成的数据集上进行了广泛的实验。结果表明,我们的方法始终优于最新的解决方案,对于具有不同索引操作的更广泛的工作负载,其性能提高了4倍。即查找查询,范围查询,插入,删除,更新和批量加载。同时,我们通过在处理更新操作时适当扩展树结构来克服先前研究的局限性,从而消除了模型在叶节点中预测的位置偏差。此外,我们进一步提出了一种动态调整策略,以确保树索引的高度严格限制,并提供全面的理论分析来说明这一点。我们在几个真实的和合成的数据集上进行了广泛的实验。结果表明,我们的方法始终优于最新的解决方案,对于具有不同索引操作的更广泛的工作负载,其性能提高了4倍。我们通过在处理更新操作时适当扩展树结构来克服先前研究的局限性,从而消除了模型在叶节点中预测的位置偏差。此外,我们进一步提出了一种动态调整策略,以确保树索引的高度严格限制,并提供全面的理论分析来说明这一点。我们在几个真实的和合成的数据集上进行了广泛的实验。结果表明,我们的方法始终优于最新的解决方案,对于具有不同索引操作的更广泛的工作负载类型,该方法的性能提高了4倍。我们通过在处理更新操作时适当扩展树结构来克服先前研究的局限性,从而消除了模型在叶节点中预测的位置偏差。此外,我们进一步提出了一种动态调整策略,以确保树索引的高度严格限制,并提供全面的理论分析来说明这一点。我们在几个真实的和合成的数据集上进行了广泛的实验。结果表明,我们的方法始终优于最新的解决方案,对于具有不同索引操作的更广泛的工作负载,其性能提高了4倍。我们进一步提出了一种动态调整策略,以确保树索引的高度严格限制,并提供全面的理论分析来说明这一点。我们在几个真实的和合成的数据集上进行了广泛的实验。结果表明,我们的方法始终优于最新的解决方案,对于具有不同索引操作的更广泛的工作负载,其性能提高了4倍。我们进一步提出了一种动态调整策略,以确保树索引的高度严格限制,并提供全面的理论分析来说明这一点。我们在几个真实的和合成的数据集上进行了广泛的实验。结果表明,我们的方法始终优于最新的解决方案,对于具有不同索引操作的更广泛的工作负载,其性能提高了4倍。
更新日期:2021-04-13
中文翻译:
具有精确位置的可更新学习索引
索引在现代数据库引擎中为加速查询处理起着至关重要的作用。``学习索引''的新范例极大地改变了DBMS中设计索引结构的方式。关键的见解是,索引可以被视为可预测查找键在数据集中的位置的学习模型。尽管此类研究在查找时间和索引大小上均显示出令人鼓舞的结果,但它们无法有效地支持更新操作。尽管最近的研究提出了一些支持更新的初步方法,但是它们却以牺牲查找性能为代价,因为它们遭受了叶节点中不精确的预测带来的开销。在本文中,我们提出了LIPP,这是一个全新的学习索引框架,可以解决此类问题。与最新的学习型索引结构类似,LIPP能够支持各种索引操作,即查找查询,范围查询,插入,删除,更新和批量加载。同时,我们通过在处理更新操作时适当扩展树结构来克服先前研究的局限性,从而消除了模型在叶节点中预测的位置偏差。此外,我们进一步提出了一种动态调整策略,以确保树索引的高度严格限制,并提供全面的理论分析来说明这一点。我们在几个真实的和合成的数据集上进行了广泛的实验。结果表明,我们的方法始终优于最新的解决方案,对于具有不同索引操作的更广泛的工作负载,其性能提高了4倍。即查找查询,范围查询,插入,删除,更新和批量加载。同时,我们通过在处理更新操作时适当扩展树结构来克服先前研究的局限性,从而消除了模型在叶节点中预测的位置偏差。此外,我们进一步提出了一种动态调整策略,以确保树索引的高度严格限制,并提供全面的理论分析来说明这一点。我们在几个真实的和合成的数据集上进行了广泛的实验。结果表明,我们的方法始终优于最新的解决方案,对于具有不同索引操作的更广泛的工作负载,其性能提高了4倍。即查找查询,范围查询,插入,删除,更新和批量加载。同时,我们通过在处理更新操作时适当扩展树结构来克服先前研究的局限性,从而消除了模型在叶节点中预测的位置偏差。此外,我们进一步提出了一种动态调整策略,以确保树索引的高度严格限制,并提供全面的理论分析来说明这一点。我们在几个真实的和合成的数据集上进行了广泛的实验。结果表明,我们的方法始终优于最新的解决方案,对于具有不同索引操作的更广泛的工作负载,其性能提高了4倍。我们通过在处理更新操作时适当扩展树结构来克服先前研究的局限性,从而消除了模型在叶节点中预测的位置偏差。此外,我们进一步提出了一种动态调整策略,以确保树索引的高度严格限制,并提供全面的理论分析来说明这一点。我们在几个真实的和合成的数据集上进行了广泛的实验。结果表明,我们的方法始终优于最新的解决方案,对于具有不同索引操作的更广泛的工作负载类型,该方法的性能提高了4倍。我们通过在处理更新操作时适当扩展树结构来克服先前研究的局限性,从而消除了模型在叶节点中预测的位置偏差。此外,我们进一步提出了一种动态调整策略,以确保树索引的高度严格限制,并提供全面的理论分析来说明这一点。我们在几个真实的和合成的数据集上进行了广泛的实验。结果表明,我们的方法始终优于最新的解决方案,对于具有不同索引操作的更广泛的工作负载,其性能提高了4倍。我们进一步提出了一种动态调整策略,以确保树索引的高度严格限制,并提供全面的理论分析来说明这一点。我们在几个真实的和合成的数据集上进行了广泛的实验。结果表明,我们的方法始终优于最新的解决方案,对于具有不同索引操作的更广泛的工作负载,其性能提高了4倍。我们进一步提出了一种动态调整策略,以确保树索引的高度严格限制,并提供全面的理论分析来说明这一点。我们在几个真实的和合成的数据集上进行了广泛的实验。结果表明,我们的方法始终优于最新的解决方案,对于具有不同索引操作的更广泛的工作负载,其性能提高了4倍。