作 者 信 息
陈换新1,常正阳1,谢 政1,徐明世2,吕东儒3,张吉才4
(1. 96911部队,北京 100011;2. 32316部队,新疆 乌鲁木齐 830000;3. 31439部队,辽宁 沈阳 110000;4. 61618部队,北京 100088)
【摘要】现有空间数据集成在实现时依赖专家参与且功能较为固定。在阐述多源空间数据集成的基础上,抽取隐含在专家经验中的规则,并通过合适的方法分别从外部、内部进行表示。最终将规则表示成计算机能够识别、存储、使用的形式,实现规则和程序代码相分离。在用户需求和空间数据确定的前提下,模拟专家完成数据集成处理,便于广大普通用户的使用,提高了代码重用性且易于维护。
【关键词】多源空间数据;空间数据集成;规则;规则的表示
【中图分类号】P208 【文献标识码】A 【文章编号】1672-1586(2020)06-0118-05
引文格式:陈换新,常正阳,谢 政,等. 基于规则的多源空间数据集成处理[J].地理信息世界,2020,27(6):118-122.
正文
0 引 言
空间数据是地理信息系统的血液,是数字化、智慧化建设的基础。随着空间探测技术的发展和数据获取手段的进步,空间数据质量不断提高,种类极大丰富,数据量爆炸式增长。与此同时,多源、异构两大特点逐渐凸显,不同部门生产的数据无法直接使用,严重影响着空间数据的共享和互操作。
面对日益增长的多源异构空间数据,如何使用成为亟待解决的问题,空间数据集成就是其使用的有效途径之一。虽然针对空间数据集成的方法、技术研究较多,但是在具体实现时存在以下不足:①依赖大量的专家经验和人工参与,自动化程度较低,某种意义上现有方法的使用者就是开发者,严重制约着广大普通用户的使用;②需要根据具体问题编写相应的代码,功能较为固定,不利于代码重用。针对上述问题,本文提出了基于规则的多源空间数据集成处理,在用户需求和空间数据已知的前提下,利用规则实现多源空间数据的集成处理。
1 多源空间数据集成
多源空间数据集成的对象既包括系列比例尺的基础数据、交通图、航空图、海图、地磁图、导航图等矢量数据,也包括扫描纸图、遥感影像等栅格数据。这些来源广泛、种类繁多的数据在空间数据间存在的差异可以概括为两个方面:微观上包括投影、坐标系、空间及时间分辨率、数据精度、数据准确性等;宏观上表现在数据模型、数据结构和语义三方面。多源空间数据集成就是消除上述差异,实现对数据的一致性处理和透明化组织管理。
多源空间数据集成的整体流程如图1所示。对于矢量数据而言,首先进行数据格式转换,其次对几何数据进行坐标系、投影转换,对属性数据进行语义转换,然后将处理后的数据导入到统一的数据处理平台;对于栅格数据而言,除了空间基准和数学基础变换外,还包括图像增强处理,然后导入数据处理平台。
图1 多源空间数据集成处理技术流程图
Fig.1 The flow chart of multi-source spatial data integration
其中数据格式、坐标系和投影转换是数据集成关键环节,相关方法较为成熟,此处不再赘述。虽然地理本体为解决语义差异提供了新方法,但是构建适合不同类型数据的全局本体比较困难。为此本文采用产生式表示法定义不同数据的语义转换规则并存放于模板中,将语义转换内容脱离于程序代码存放,这样不同数据在转换时不必修改主程序仅需调用相应的转换模板即可,具体实现可参考文献[10]。
2 基于规则的多源空间数据集成方法设计
基于规则的集成方法,将隐藏在专家大脑中的经验提取出来并形式化地表示运用,实现规则和程序代码的分离,在用户需求和空间数据情况已知的前提下,模拟专家完成数据集成处理,提高执行效率,降低使用门槛。整个方法的实现基于以下三部分:
1)规则
多源空间数据集成中的规则是对领域专家经验的抽象及结构化、规范化的表达,能够被计算机识别和使用,是宏观上关于如何解决具体问题的泛在策略,包含整体结构及不同环节的组织处理,对应于“为什么”。规则虽然不针对特定任务,但是开展多源空间数据集成的主要依据,具有一定的通用性。
2)过程控制
负责具体问题求解、控制数据集成处理的操作过程,是任务在执行层面的具体反映,对应于“怎么做”。过程控制是“动态”的,是规则在输入具体需求和数据情况下将任务转换为计算机执行的一系列逻辑顺序严密的操作,纵向上将各不同环节顺次连接生成求解过程,横向上控制调用各环节相应的功能函数,实现特
定集成过程。
3)功能函数库
存放着坐标系、投影变换、语义转换等数据集成不同环节对应的功能函数,按照一定的类别、层次结构组织,以代码形式存在,对应于“是什么”。虽然功能函数相对于过程控制是“静态”的,但它可以被过程控制所调用完成具体处理,是执行不同环节操作的实体。
上述三方面相互关联、共同作用实现多源数据的集成处理,大致过程如图2所示。获取用户需求和多源数据的情况描述,通过规则和功能函数库将问题解析、派生得到解决该问题的过程控制,然后调用相关函数实体依次执行完成集成处理。
图2 基于规则的数据集成处理方法流程图
Fig.2 The flow chart of multi-source spatial data integration based on rule
其中,多源空间数据集成中规则的抽取和表达是整个方法实现的关键,下面重点对其展开介绍。
3 多源空间数据集成规则的表示
上文所述的规则以文字、图表等人类自然语言的形式存在,需要进一步将规则概念形式化、形式规则化,表示成计算机可识别、存储、使用的某种数据结构。规则的表示包括外部、内部表示。
3.1 规则的外部表示
规则的外部表示是使用人工智能的表示方法进行形式化的表达。其中,现有坐标系、投影、数据访问等相关转换方法已经比较成熟,且以程序代码的过程式表示形式广泛使用,语义转换环节中转换规则的定义可以使用产生式表示法。相对而言,多源空间数据集成规则较为复杂,本文采用基于与/或图和框架式的混合式表示法。
与/或图表示法将待解决的复杂问题等价或分解为若干个简单的子问题集合,如此循环将其中有解的子问题组合在一起得到原问题的一个解,原问题的求解过程用树形结构图表示,用带弧线、不带弧线分别表示与、或关系,其中除终叶节点外的节点若需要后继节点共同作用完成则为与节点,反之为或节点。多源空间数据集成由若干不同环节组成,每个环节又包含解决该类问题的不同方法,每一次集成处理都依靠不同环节的不同方法最终实现。因此可以采用与/或图对规则的结构框架进行外部表示,如图3所示。
图3 多源空间数据集成规则的外部表示
Fig.3 The external representation of multi-source spatial data
integration rule
图3中带填充的节点都有相应的功能函数库对应,该节点是否为可解节点取决于库中是否存在解决本原问题的功能函数,由于具体功能函数的实体都存储于函数库中,所以需要建立节点与函数库的对应关系。框架式表示法由描述事物各方面的槽组成,每个槽拥有若干个侧面,每个侧面可以有若干个值,在减少冗余存储的同时保证知识的一致性。因此采用框架式表示法对各节点进行描述:将节点视为“框架”,与相应的转换函数库对应,框架下包含若干个“槽”,每个槽对应着函数库中的一个具体的功能函数,根据描述需要可以定义若干个“侧面”对功能函数进行描述,如函数名称、功能用途、涉及的参数等,然后将函数这几方面的属性作为“值”添加到相应的侧面中。由此建立节点和函数库的关联,实现了通过节点判断或调用具体的转换函数。
3.2 规则的内部表示
规则的内部表示是将形式化外部表示的规则面向存储结构与运行平台,进一步表示成计算机能够识别、执行的语句或程序。多源空间数据集成规则整体上为树形结构,具有知识片段数量大、种类多的特点,需要适当方法加以表示。可扩展标记语言(ExtensibleMarkup Language,XML),是处理结构化信息的有力工具。以XML为基础描述XML文档结构的可扩展标记语言架构(XML Schema),是定义XML文档的合法构建模块,可以定义出现在文档中的元素、属性、数据类型、子元素及其次序和数目等,被广泛应用于规则甚至知识的表示。
本文采用XML Schema定义规则的文档结构并保存相关的xsd文档,然后以xsd文档为规范建立xml文档,根据功能函数库内容对节点进行填充。
3.2.1 规则文档结构的定义
1)树结构定义
多源空间数据集成由若干不同环节组成,每个环节又包含解决该类问题的具体函数,整体上近似为树形结构。在定义多源空间数据集成的规则时,不同节点出现的顺序要和数据集成中不同环节的执行顺序相一致。
2)节点定义
结构定义中语义、坐标系、投影转换3个节点都有相应的功能函数库与之对应,可以通过框架式表示法,定义若干个侧面描述功能函数的本质属性,该节点是否可解取决于库中是否存在解决问题的具体功能函数。以投影转换函数库为例,在定义投影转换槽(projection-slot)的基础上,定义投影名称、函数名称、参数、参数说明、功能用途5个侧面。
3.2.2 节点填充
基于xsd文档创建xml文档,可以得到与XML Schema定义的规则文档结构相一致的xml文档,然后将具体函数填加到对应节点的槽中,按照功能函数的属性完成侧面值的填充。XMLSpy编辑器的Grid视图中提供了数据库/表格视图,元素类型相同的一组元素以表格的形式显示,表中各行对应于具体的功能函数,即不同的槽,各列为各个属性,即不同的侧面,特别适用于编辑多个具有相同结构的元素。以“投影转换”的端节点为例,投影转换函数槽的填充效果如图4所示。对于填充得到的xml文档,可利用XMLSpy提供的良构性检查和内置验证器进行检查验证。
图4 投影转换函数槽填充的表格视图
Fig.4 The table chart of content filling for projection-slot
至此完成了多源空间数据集成规则的表示,实现了将专家的经验“翻译”成计算机可识别的语言,为计算机使用规则解决问题创造了前提条件。
4 基于规则多源空间数据集成处理的实现
基于规则的多源空间数据集成处理在具体实现时,按照规则文档结构的顺序,以节点为单位依次处理,同时保证用户掌握每个节点的运行情况并能够根据需要加以交互。整体上包括初始化、解析和执行三部分,如图5所示,具体内容如下:
图5 基于规则数据集成处理的实现
Fig.5 The realization of multi-source spatial data integration based on rule
1)初始化:在确保具备运行条件的基础上获取问题具体描述。
首先,检查系统中规则、数据访问接口、语义转换库、坐标系转换库、投影转换库等相关函数库是否存在并挂接成功;其次,获取用户需求和数据情况描述,包括源数据和目标数据的格式、坐标系、投影、语义等,然后导入待处理的源数据。
2)解析:按照规则依次解析每个节点,根据问题描述和功能函数库得到过程控制。
首先,对当前节点进行解析,借助规则通过问题描述确定该节点是否需要处理以及需要何种处理,并查找该节点是否存在相应功能函数;其次,如果确认存在相应的函数实体,且侧面值匹配成功,生成该节点的程序代码并加入到代码序列中;反之不具备进行该项处理的能力,这时用户可以调整需求或者加载相关的功能函数后重新对该节点进行解析;最后,依次解析后续节点得到过程控制。
3)执行:根据过程控制依次运行代码序列,调用相关函数实体进行集成处理。
解析得到的是未编辑的代码序列,因此首先需要通过动态编译技术得到可行、可动态调用的二进制文件;然后,以待集成处理的多源数据为操作对象依次运行代码序列,每段代码序列都以上段代码运行结果为作用对象。如果某段代码序列运行有误,则将问题加入消息队列告知用户,用户可交互处理。
5 实验及分析
使用基于规则的空间数据集成方法对某区域1:1 000 000多源空间数据进行集成处理,待处理数据具体情况为:导航数据,采用新BJ54坐标系、等角圆锥投影,mid/mif格式;全球测图项目数据,采用WGS84坐标系、等角圆锥投影,数据格式为shapefile;谷歌地图遥感影像,采用WGS84坐标系、墨卡托投影。目标数据为CGCS2000坐标系、等角圆锥投影,数据格式为shapefile。
首先,选择待集成处理的数据,并输入坐标系、投影等数据情况描述,选择相应的语义转换模板。其次,系统按照上文定义的规则对各节点依次解析,根据问题描述在节点中查找是否存在相应的功能函数,如导航数据的坐标系需要由新BJ54转换至CGCS2000,在坐标系转换节点中查找相应的转换函数并匹配侧面值,生成该节点的程序代码并加入至代码序列。最后依次运行代码序列。需要说明的是,坐标系转换和投影转换之间的区分度很小,一般先将原数据平面直角坐标(x ,y )经投影反解得到地理坐标(B ,L ),然后通过坐标系转换得到目标坐标系下的地理坐标(B' ,L' ),最后经投影正解得到目标数据坐标(X ,Y )。
实验数据的集成效果如图6所示,其中黄色为导航数据。
图6 3种数据集成效果图
Fig.6 The example of three kinds of data integration based on rule
基于规则的多源空间数据集成与现有方法相比具有如下优势:
1)结构组织方面:现有方法问题求解的专家经验隐含在程序代码中,包括数据和程序两级;基于规则的方法将规则和程序代码相分离,包括数据、规则和功能函数三级,通过逻辑判断调用相关的功能函数对数据进行集成处理,结构更为灵活。
2)更新维护方面:现有方法中程序代码较为固定,用于特定的集成处理;基于规则的方法将代码分类并存储于相应函数库中。当集成对象发生改变或需要更新时,现有方法只能重新编写代码,而基于规则的方法仅需要完善规则或者增加功能函数库,这种低耦合的特性易于更新维护,周期短代价小。
3)使用方面:现有方法离不开专家的参与和决策。基于规则的方法可根据具体问题调用相应的功能函数构成求解序列,进而由过程控制实现集成处理,降低了使用门槛。
6 结束语
虽然现有数据集成的方法已较为成熟,但实现方式上的固有缺陷导致其功能较为固定且使用门槛较高。基于规则的空间数据集成处理方法在用户需求和多源空间数据确定的前提下,能够模拟专家实现集成处理,便于广大用户的使用,提高了代码重用性且易于维护。
作者简介:陈换新(1984-),男,河北阜城人,工程师,博士,主要从事数字制图技术、空间数据融合等工作。
E-mail:chx1557@163.com
本期回顾
国土空间规划信息技术与应用
· 融合OSM路网数据与POI数据的城市功能区识别方法及其应用
· 基于PS-InSAR数据的北京市地面沉降影响因素及其交互作用探测
· 基于Maxent-CA的常州市土地利用变化模拟与预测分析
理论研究
创新应用
邮箱变更声明
网站开通公告
诚聘特约审稿专家
专题组稿