当前位置: X-MOL 学术ACM Trans. Web › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
Mining Abstract XML Data-Types
ACM Transactions on the Web ( IF 3.5 ) Pub Date : 2018-12-04 , DOI: 10.1145/3267467
Dionysis Athanasopoulos 1 , Apostolos Zarras 2
Affiliation  

Schema integration has been a long-standing challenge for the data-engineering community that has received steady attention over the past three decades. General-purpose integration approaches construct unified schemas that encompass all schema elements. Schema integration has been revisited in the past decade in service-oriented computing since the input/output data-types of service interfaces are heterogeneous XML schemas. However, service integration differs from the traditional integration problem, since it should generalize schemas (mining abstract data-types) instead of unifying all schema elements. To mine well-formed abstract data-types, the fundamental Liskov Substitution Principle (LSP), which generally holds between abstract data-types and their subtypes, should be followed. However, due to the heterogeneity of service data-types, the strict employment of LSP is not usually feasible. On top of that, XML offers a rich type system, based on which data-types are defined via combining type patterns (e.g., composition, aggregation). The existing integration approaches have not dealt with the challenges of a defining subtyping relation between XML type patterns. To address these challenges, we propose a relaxed version of LSP between XML type patterns and an automated generalization process for mining abstract XML data-types. We evaluate the effectiveness and the efficiency of the process on the schemas of two datasets against two representative state-of-the-art approaches.

中文翻译:

挖掘抽象 XML 数据类型

模式集成一直是数据工程社区长期面临的挑战,在过去的三年中一直受到关注。通用集成方法构建包含所有模式元素的统一模式。由于服务接口的输入/输出数据类型是异构的 XML 模式,模式集成在过去十年中在面向服务的计算中得到了重新审视。然而,服务集成不同于传统的集成问题,因为它应该泛化模式(挖掘抽象数据类型)而不是统一所有模式元素。为了挖掘格式良好的抽象数据类型,应该遵循基本的 Liskov 替换原则 (LSP),它通常适用于抽象数据类型及其子类型之间。然而,由于服务数据类型的异质性,LSP 的严格使用通常是不可行的。最重要的是,XML 提供了一个丰富的类型系统,基于该系统的数据类型是通过组合类型模式(例如,组合、聚合)来定义的。现有的集成方法没有处理定义 XML 类型模式之间的子类型关系的挑战。为了应对这些挑战,我们提出了一种介于 XML 类型模式之间的 LSP 的宽松版本和用于挖掘抽象 XML 数据类型的自动泛化过程。我们针对两种具有代表性的最先进方法评估了两个数据集模式的过程的有效性和效率。现有的集成方法没有处理定义 XML 类型模式之间的子类型关系的挑战。为了应对这些挑战,我们提出了一种介于 XML 类型模式之间的 LSP 的宽松版本和用于挖掘抽象 XML 数据类型的自动泛化过程。我们针对两种具有代表性的最先进方法评估了两个数据集模式的过程的有效性和效率。现有的集成方法没有处理定义 XML 类型模式之间的子类型关系的挑战。为了应对这些挑战,我们提出了一种介于 XML 类型模式之间的 LSP 的宽松版本和用于挖掘抽象 XML 数据类型的自动泛化过程。我们针对两种具有代表性的最先进方法评估了两个数据集模式的过程的有效性和效率。
更新日期:2018-12-04
down
wechat
bug