当前位置: X-MOL 学术Database J. Biol. Databases Curation › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
Enabling semantic queries across federated bioinformatics databases.
Database: The Journal of Biological Databases and Curation ( IF 3.4 ) Pub Date : 2019-11-08 , DOI: 10.1093/database/baz106
Ana Claudia Sima 1, 2, 3, 4 , Tarcisio Mendes de Farias 2, 3, 4, 5 , Erich Zbinden 1, 4 , Maria Anisimova 1, 4 , Manuel Gil 1, 4 , Heinz Stockinger 4 , Kurt Stockinger 1 , Marc Robinson-Rechavi 4, 5 , Christophe Dessimoz 2, 3, 4, 6, 7
Affiliation  

MOTIVATION Data integration promises to be one of the main catalysts in enabling new insights to be drawn from the wealth of biological data available publicly. However, the heterogeneity of the different data sources, both at the syntactic and the semantic level, still poses significant challenges for achieving interoperability among biological databases. RESULTS We introduce an ontology-based federated approach for data integration. We applied this approach to three heterogeneous data stores that span different areas of biological knowledge: (i) Bgee, a gene expression relational database; (ii) Orthologous Matrix (OMA), a Hierarchical Data Format 5 orthology DS; and (iii) UniProtKB, a Resource Description Framework (RDF) store containing protein sequence and functional information. To enable federated queries across these sources, we first defined a new semantic model for gene expression called GenEx. We then show how the relational data in Bgee can be expressed as a virtual RDF graph, instantiating GenEx, through dedicated relational-to-RDF mappings. By applying these mappings, Bgee data are now accessible through a public SPARQL endpoint. Similarly, the materialized RDF data of OMA, expressed in terms of the Orthology ontology, is made available in a public SPARQL endpoint. We identified and formally described intersection points (i.e. virtual links) among the three data sources. These allow performing joint queries across the data stores. Finally, we lay the groundwork to enable nontechnical users to benefit from the integrated data, by providing a natural language template-based search interface.

中文翻译:

跨联合生物信息数据库启用语义查询。

动机数据集成有望成为推动从公开的大量生物数据中汲取新见解的主要催化剂之一。然而,在语法和语义层面上,不同数据源的异质性仍然对实现生物学数据库之间的互操作性提出了重大挑战。结果我们引入了一种基于本体的联合方法进行数据集成。我们将此方法应用于跨越生物学知识不同领域的三个异构数据存储:(i)Bgee,一个基因表达关系数据库;(ii)直系同源矩阵(OMA),分层数据格式5正交DS;(iii)UniProtKB,一种包含蛋白质序列和功能信息的资源描述框架(RDF)存储。要跨这些源启用联合查询,我们首先为基因表达定义了一个新的语义模型GenEx。然后,我们展示了如何通过专用的关系到RDF映射将Bgee中的关系数据表示为实例化GenEx的虚拟RDF图。通过应用这些映射,现在可以通过公共SPARQL端点访问Bgee数据。类似地,可以在公共SPARQL端点中使用以Orthology本体表示的OMA的物化RDF数据。我们确定并正式描述了三个数据源之间的交点(即虚拟链接)。这些允许跨数据存储执行联合查询。最后,我们通过提供基于自然语言模板的搜索界面,为使非技术用户从集成数据中受益奠定了基础。然后,我们展示了如何通过专用的关系到RDF映射将Bgee中的关系数据表示为实例化GenEx的虚拟RDF图。通过应用这些映射,现在可以通过公共SPARQL端点访问Bgee数据。类似地,可以在公共SPARQL端点中使用以Orthology本体表示的OMA的物化RDF数据。我们确定并正式描述了三个数据源之间的交点(即虚拟链接)。这些允许跨数据存储执行联合查询。最后,我们通过提供基于自然语言模板的搜索界面,为使非技术用户从集成数据中受益奠定了基础。然后,我们展示了如何通过专用的关系到RDF映射将Bgee中的关系数据表示为实例化GenEx的虚拟RDF图。通过应用这些映射,现在可以通过公共SPARQL端点访问Bgee数据。类似地,可以在公共SPARQL端点中使用以Orthology本体表示的OMA的物化RDF数据。我们确定并正式描述了三个数据源之间的交点(即虚拟链接)。这些允许跨数据存储执行联合查询。最后,我们通过提供基于自然语言模板的搜索界面,为使非技术用户从集成数据中受益奠定了基础。通过应用这些映射,现在可以通过公共SPARQL端点访问Bgee数据。类似地,可以在公共SPARQL端点中使用以Orthology本体表示的OMA的物化RDF数据。我们确定并正式描述了三个数据源之间的交点(即虚拟链接)。这些允许跨数据存储执行联合查询。最后,我们通过提供基于自然语言模板的搜索界面,为使非技术用户从集成数据中受益奠定了基础。通过应用这些映射,现在可以通过公共SPARQL端点访问Bgee数据。类似地,可以在公共SPARQL端点中使用以Orthology本体表示的OMA的物化RDF数据。我们确定并正式描述了三个数据源之间的交点(即虚拟链接)。这些允许跨数据存储执行联合查询。最后,我们通过提供基于自然语言模板的搜索界面,为使非技术用户从集成数据中受益奠定了基础。虚拟链接)。这些允许跨数据存储执行联合查询。最后,我们通过提供基于自然语言模板的搜索界面,为使非技术用户从集成数据中受益奠定了基础。虚拟链接)。这些允许跨数据存储执行联合查询。最后,我们通过提供基于自然语言模板的搜索界面,为使非技术用户从集成数据中受益奠定了基础。
更新日期:2019-11-01
down
wechat
bug