当前位置: X-MOL 学术Distrib. Parallel. Databases › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
On-demand big data integration
Distributed and Parallel Databases ( IF 1.2 ) Pub Date : 2018-09-01 , DOI: 10.1007/s10619-018-7248-y
Pradeeban Kathiravelu , Ashish Sharma , Helena Galhardas , Peter Van Roy , Luís Veiga

Scientific research requires access, analysis, and sharing of data that is distributed across various heterogeneous data sources at the scale of the Internet. An eager extract, transform, and load (ETL) process constructs an integrated data repository as its first step, integrating and loading data in its entirety from the data sources. The bootstrapping of this process is not efficient for scientific research that requires access to data from very large and typically numerous distributed data sources. A lazy ETL process loads only the metadata, but still eagerly. Lazy ETL is faster in bootstrapping. However, queries on the integrated data repository of eager ETL perform faster, due to the availability of the entire data beforehand. In this paper, we propose a novel ETL approach for scientific data integration, as a hybrid of eager and lazy ETL approaches, and applied both to data as well as metadata. This way, hybrid ETL supports incremental integration and loading of metadata and data from the data sources. We incorporate a human-in-the-loop approach, to enhance the hybrid ETL, with selective data integration driven by the user queries and sharing of integrated data between users. We implement our hybrid ETL approach in a prototype platform, Óbidos, and evaluate it in the context of data sharing for medical research. Óbidos outperforms both the eager ETL and lazy ETL approaches, for scientific research data integration and sharing, through its selective loading of data and metadata, while storing the integrated data in a scalable integrated data repository.

中文翻译:

按需大数据集成

科学研究需要访问、分析和共享分布在 Internet 规模的各种异构数据源中的数据。急切的提取、转换和加载 (ETL) 过程首先构建集成数据存储库,从数据源集成和加载完整的数据。对于需要访问来自非常大且通常为众多分布式数据源的数据的科学研究而言,此过程的引导效率不高。惰性 ETL 过程仅加载元数据,但仍然急切地加载。Lazy ETL 的引导速度更快。但是,由于整个数据事先可用,因此对 ETL 的集成数据存储库的查询执行得更快。在本文中,我们提出了一种用于科学数据集成的新型 ETL 方法,作为急切和惰性 ETL 方法的混合,并应用于数据和元数据。这样,混合 ETL 支持增量集成和从数据源加载元数据和数据。我们采用了人在循环的方法,通过用户查询驱动的选择性数据集成和用户之间的集成数据共享来增强混合 ETL。我们在原型平台 Óbidos 中实施我们的混合 ETL 方法,并在医学研究数据共享的背景下对其进行评估。Óbidos 通过选择性加载数据和元数据,同时将集成数据存储在可扩展的集成数据存储库中,在科学研究数据集成和共享方面优于 ETL 和惰性 ETL 方法。混合 ETL 支持增量集成和从数据源加载元数据和数据。我们采用了人在循环的方法,通过用户查询驱动的选择性数据集成和用户之间的集成数据共享来增强混合 ETL。我们在原型平台 Óbidos 中实施我们的混合 ETL 方法,并在医学研究数据共享的背景下对其进行评估。Óbidos 通过选择性加载数据和元数据,同时将集成数据存储在可扩展的集成数据存储库中,在科学研究数据集成和共享方面优于 ETL 和惰性 ETL 方法。混合 ETL 支持增量集成和从数据源加载元数据和数据。我们采用了人在循环的方法,通过用户查询驱动的选择性数据集成和用户之间的集成数据共享来增强混合 ETL。我们在原型平台 Óbidos 中实施我们的混合 ETL 方法,并在医学研究数据共享的背景下对其进行评估。Óbidos 通过选择性加载数据和元数据,同时将集成数据存储在可扩展的集成数据存储库中,在科学研究数据集成和共享方面优于 ETL 和惰性 ETL 方法。由用户查询驱动的选择性数据集成和用户之间的集成数据共享。我们在原型平台 Óbidos 中实施我们的混合 ETL 方法,并在医学研究数据共享的背景下对其进行评估。Óbidos 通过选择性加载数据和元数据,同时将集成数据存储在可扩展的集成数据存储库中,在科学研究数据集成和共享方面优于 ETL 和惰性 ETL 方法。由用户查询驱动的选择性数据集成和用户之间的集成数据共享。我们在原型平台 Óbidos 中实施我们的混合 ETL 方法,并在医学研究数据共享的背景下对其进行评估。Óbidos 通过选择性加载数据和元数据,同时将集成数据存储在可扩展的集成数据存储库中,在科学研究数据集成和共享方面优于 ETL 和惰性 ETL 方法。
更新日期:2018-09-01
down
wechat
bug