当前位置: X-MOL 学术GeoInformatica › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
ITISS: an efficient framework for querying big temporal data
GeoInformatica ( IF 2 ) Pub Date : 2019-05-22 , DOI: 10.1007/s10707-019-00362-1
Zhongpu Chen , Bin Yao , Zhi-Jie Wang , Wei Zhang , Kai Zheng , Panos Kalnis , Feilong Tang

In the real word, temporal data can be found in many applications, and it is rapidly increasing nowadays. It is urgently important and challenging to manage and operate big temporal data efficiently and effectively, due to the large volume of big temporal data and the real-time response requirement. Processing big temporal data using a distributed system is a desired choice, since a single-machine based system usually has the limited computing ability. Nevertheless, existing distributed systems or methods either are disk-based solutions, or cannot support native queries, which may not well meet the demands of low latency and high throughput. To attack these issues, this article suggests a new approach to handle big temporal data. Our approach is an In-memory based Two-level Index Solution in Spark, dubbed as ITISS. The proposed framework of our solution is easily understood and implemented, but without loss of effectiveness and efficiency. Based on the proposed framework, this article develops targeted algorithms for handling time travel, temporal aggregation, and temporal join queries, respectively. We have implemented our framework in Apache Spark, extended the Apache Spark SQL to support declarative SQL interface that enables users to perform temporal queries with a few lines of SQL statements, and conducted extensive experiments to verify the performance of our solution. The experimental results, based on both real and synthetic datasets, consistently demonstrate that our proposed solution is efficient and competitive for processing big temporal data.

中文翻译:

ITISS:查询大时态数据的有效框架

用真实的话来说,时态数据可以在许多应用程序中找到,并且如今它正在迅速增加。由于大量的大时间数据和实时响应需求,有效地管理和操作大的时间数据迫在眉睫,具有挑战性。由于基于单机的系统通常具有有限的计算能力,因此使用分布式系统处理大型时间数据是理想的选择。尽管如此,现有的分布式系统或方法要么是基于磁盘的解决方案,要么无法支持本机查询,这可能无法很好地满足低延迟和高吞吐量的需求。为了解决这些问题,本文提出了一种处理大时态数据的新方法。我们的方法是在Spark中基于内存的二级索引解决方案,称为ITISS。我们提出的解决方案框架易于理解和实施,但又不损失有效性和效率。在提出的框架的基础上,本文开发了用于分别处理时间旅行,时间聚合和时间联接查询的目标算法。我们已经在Apache Spark中实现了我们的框架,扩展了Apache Spark SQL以支持声明性SQL接口,该接口使用户能够使用几行SQL语句执行时态查询,并进行了广泛的实验以验证解决方案的性能。基于真实数据集和合成数据集的实验结果一致表明,我们提出的解决方案在处理大时态数据方面既高效又具有竞争力。在提出的框架的基础上,本文开发了用于分别处理时间旅行,时间聚合和时间联接查询的目标算法。我们已经在Apache Spark中实现了我们的框架,扩展了Apache Spark SQL以支持声明性SQL接口,该接口使用户能够使用几行SQL语句执行时态查询,并进行了广泛的实验以验证解决方案的性能。基于真实数据集和合成数据集的实验结果一致表明,我们提出的解决方案在处理大时态数据方面既高效又具有竞争力。在提出的框架的基础上,本文开发了用于分别处理时间旅行,时间聚合和时间联接查询的目标算法。我们已经在Apache Spark中实现了我们的框架,扩展了Apache Spark SQL以支持声明性SQL接口,该接口使用户能够使用几行SQL语句执行时态查询,并进行了广泛的实验以验证解决方案的性能。基于真实数据集和合成数据集的实验结果一致表明,我们提出的解决方案在处理大时态数据方面既高效又具有竞争力。扩展了Apache Spark SQL以支持声明性SQL接口,该接口使用户能够使用几行SQL语句执行时态查询,并进行了广泛的实验以验证我们解决方案的性能。基于真实数据集和合成数据集的实验结果一致表明,我们提出的解决方案在处理大时态数据方面既高效又具有竞争力。扩展了Apache Spark SQL以支持声明性SQL接口,该接口使用户能够使用几行SQL语句执行时态查询,并进行了广泛的实验以验证我们解决方案的性能。基于真实数据集和合成数据集的实验结果一致表明,我们提出的解决方案在处理大时态数据方面既高效又具有竞争力。
更新日期:2019-05-22
down
wechat
bug