当前位置: X-MOL 学术Comput. Geosci. › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
Harmonizing heterogeneous multi-proxy data from lake systems
Computers & Geosciences ( IF 4.2 ) Pub Date : 2021-04-24 , DOI: 10.1016/j.cageo.2021.104791
Gregor Pfalz , Bernhard Diekmann , Johann-Christoph Freytag , Boris K. Biskaborn

When performing spatial-temporal investigations of multiple lake systems, geoscientists face the challenge of dealing with complex and heterogeneous data of different types, structure, and format. To support comparability, it is necessary to transform such data into a uniform format that ensures syntactic and semantic comparability. This paper presents a data science approach for transforming research data from different lake sediment cores into a coherent framework. For this purpose, we collected published and unpublished data from paleolimnological investigations of Arctic lake systems. Our approach adapted methods from the database field, such as developing entity-relationship (ER) diagrams, to understand the conceptual structure of the data independently of the source. We demonstrated the feasibility of our approach by transforming our ER diagram into a database schema for PostgreSQL, a popular database management system (DBMS). We validated our approach by conducting a comparative analysis on a set of acquired data, hereby focusing on the comparison of total organic carbon and bromine content in eight selected sediment cores. Still, we encountered serious obstacles in the development of the ER model. Heterogeneous structures within collected data made an automatic data integration impossible. Additionally, we realized that missing error information hampers the development of a conceptual model. Despite the strong initial heterogeneity of the original data, our harmonized dataset leads to comparable datasets, enabling numerical inter-proxy and inter-lake comparison.



中文翻译:

协调来自湖泊系统的异构多代理数据

在对多个湖泊系统进行时空调查时,地球科学家面临着处理不同类型,结构和格式的复杂且异构数据的挑战。为了支持可比性,有必要将此类数据转换为确保句法和语义可比性的统一格式。本文提出了一种数据科学方法,可以将来自不同湖泊沉积物核心的研究数据转换为一个连贯的框架。为此,我们从北极湖泊系统的古湖泊学调查中收集了已发表和未发表的数据。我们的方法采用了数据库领域的方法,例如开发实体关系(ER)图,以独立于源来理解数据的概念结构。通过将ER图转换为PostgreSQL(一种流行的数据库管理系统(DBMS))的数据库模式,我们证明了该方法的可行性。我们通过对一组采集的数据进行比较分析来验证我们的方法,从而重点比较八个选定沉积岩心中的总有机碳和溴含量。尽管如此,我们在开发ER模型时仍然遇到了严重的障碍。收集到的数据中的异构结构使自动数据集成成为不可能。此外,我们意识到缺少错误信息会妨碍概念模型的开发。尽管原始数据具有很强的初始异质性,但我们的统一数据集仍可提供可比较的数据集,从而可以进行数值间代理和湖间比较。流行的数据库管理系统(DBMS)。我们通过对一组采集的数据进行比较分析来验证我们的方法,从而重点比较八个选定沉积岩心中的总有机碳和溴含量。尽管如此,我们在开发ER模型时仍然遇到了严重的障碍。收集到的数据中的异构结构使自动数据集成成为不可能。此外,我们意识到缺少错误信息会妨碍概念模型的开发。尽管原始数据具有很强的初始异质性,但我们的统一数据集仍可提供可比较的数据集,从而可以进行数值间代理和湖间比较。流行的数据库管理系统(DBMS)。我们通过对一组采集的数据进行比较分析来验证我们的方法,从而重点比较八个选定沉积岩心中的总有机碳和溴含量。尽管如此,我们在开发ER模型时仍然遇到了严重的障碍。收集到的数据中的异构结构使自动数据集成成为不可能。此外,我们意识到缺少错误信息会妨碍概念模型的开发。尽管原始数据具有很强的初始异质性,但我们的统一数据集仍可提供可比较的数据集,从而可以进行数值间代理和湖间比较。因此,本文着重比较了八个选定沉积岩心中的总有机碳和溴含量。尽管如此,我们在开发ER模型时仍然遇到了严重的障碍。收集到的数据中的异构结构使自动数据集成成为不可能。此外,我们意识到缺少错误信息会妨碍概念模型的开发。尽管原始数据具有很强的初始异质性,但我们的统一数据集仍可提供可比较的数据集,从而可以进行数值间代理和湖间比较。因此,本文着重比较了八个选定沉积岩心中的总有机碳和溴含量。尽管如此,我们在开发ER模型时仍然遇到了严重的障碍。收集到的数据中的异构结构使自动数据集成成为不可能。此外,我们意识到缺少错误信息会妨碍概念模型的开发。尽管原始数据具有很强的初始异质性,但我们的统一数据集仍可提供可比较的数据集,从而可以进行数值间代理和湖间比较。我们意识到丢失的错误信息会阻碍概念模型的开发。尽管原始数据具有很强的初始异质性,但我们的统一数据集仍可提供可比较的数据集,从而可以进行数值间代理和湖间比较。我们意识到丢失的错误信息会阻碍概念模型的开发。尽管原始数据具有很强的初始异质性,但我们的统一数据集仍可提供可比较的数据集,从而可以进行数值间代理和湖间比较。

更新日期:2021-04-30
down
wechat
bug