当前位置: X-MOL 学术VLDB J. › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
A cost model for random access queries in document stores
The VLDB Journal ( IF 4.2 ) Pub Date : 2021-03-24 , DOI: 10.1007/s00778-021-00660-x
Moditha Hewasinghage , Alberto Abelló , Jovan Varga , Esteban Zimányi

Document stores have become one of the key NoSQL storage solutions. They have been widely adopted in different domains due to their ability to store semi-structured data and expressive query capabilities. However, implementations differ in terms of concrete data storage and retrieval. Unfortunately, a standard framework for data and query optimization for document stores is nonexistent, and only implementation-specific design and query guidelines are used. Hence, the goal of this work is to aid automating the data design for document stores based on query costs instead of generic design rules. For this, we define a generic storage and query cost model based on disk access and memory allocation that allows estimating the impact of design decisions. Since all document stores carry out data operations in memory, we first estimate the memory usage by considering characteristics of the stored documents, their access patterns, and memory management algorithms. Then, using this estimation and metadata storage size, we introduce a cost model for random access queries. We validate our work on two well-known document store implementations: MongoDB and Couchbase. The results show that the memory usage estimates have the average precision of 91% and predicted costs are highly correlated to the actual execution times. During this work, we have managed to suggest several improvements to document storage systems. Thus, this cost model also contributes to identifying discordance between document store implementations and their theoretical expectations.



中文翻译:

文档存储中随机访问查询的成本模型

文档存储已成为NoSQL关键存储解决方案之一。由于它们存储半结构化数据的能力和表达性查询功能,它们已在不同领域中被广泛采用。但是,在具体的数据存储和检索方面,实现方式有所不同。不幸的是,不存在用于文档存储的数据和查询优化的标准框架,并且仅使用特定于实现的设计和查询准则。因此,这项工作的目标是基于查询成本而不是通用设计规则来帮助自动化文档存储的数据设计。为此,我们基于磁盘访问和内存分配定义了通用的存储和查询成本模型,该模型可以估计设计决策的影响。由于所有文档存储区都在内存中执行数据操作,我们首先通过考虑存储文档的特征,它们的访问模式和内存管理算法来估计内存使用情况。然后,使用此估计和元数据存储大小,我们为随机访问查询引入了成本模型。我们通过两个著名的文档存储实现对我们的工作进行验证:MongoDB和Couchbase。结果表明,内存使用估计的平均精度为91%,并且预测成本与实际执行时间高度相关。在这项工作中,我们设法提出了一些对文档存储系统的改进建议。因此,此成本模型还有助于识别文档存储实现与它们的理论期望之间的矛盾。使用这种估计和元数据存储大小,我们为随机访问查询引入了成本模型。我们通过两个著名的文档存储实现对我们的工作进行验证:MongoDB和Couchbase。结果表明,内存使用估计的平均精度为91%,并且预测成本与实际执行时间高度相关。在这项工作中,我们设法提出了一些对文档存储系统的改进建议。因此,此成本模型还有助于识别文档存储实现与它们的理论期望之间的矛盾。使用此估计和元数据存储大小,我们为随机访问查询引入了成本模型。我们通过两个著名的文档存储实现对我们的工作进行验证:MongoDB和Couchbase。结果表明,内存使用估计的平均精度为91%,并且预测成本与实际执行时间高度相关。在这项工作中,我们设法提出了一些对文档存储系统的改进建议。因此,此成本模型还有助于识别文档存储实现与它们的理论期望之间的矛盾。结果表明,内存使用估计的平均精度为91%,并且预测成本与实际执行时间高度相关。在这项工作中,我们设法提出了一些对文档存储系统的改进建议。因此,此成本模型还有助于识别文档存储实现与它们的理论期望之间的矛盾。结果表明,内存使用估计的平均精度为91%,并且预测成本与实际执行时间高度相关。在这项工作中,我们设法提出了一些对文档存储系统的改进建议。因此,此成本模型还有助于识别文档存储实现与它们的理论期望之间的矛盾。

更新日期:2021-03-24
down
wechat
bug