当前位置: X-MOL 学术arXiv.cs.DB › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
Demystifying Graph Databases: Analysis and Taxonomy of Data Organization, System Designs, and Graph Queries
arXiv - CS - Databases Pub Date : 2019-10-20 , DOI: arxiv-1910.09017
Maciej Besta, Emanuel Peter, Robert Gerstenberger, Marc Fischer, Micha{\l} Podstawski, Claude Barthels, Gustavo Alonso, Torsten Hoefler

Graph processing has become an important part of multiple areas of computer science, such as machine learning, computational sciences, medical applications, social network analysis, and many others. Numerous graphs such as web or social networks may contain up to trillions of edges. Often, these graphs are also dynamic (their structure changes over time) and have domain-specific rich data associated with vertices and edges. Graph database systems such as Neo4j enable storing, processing, and analyzing such large, evolving, and rich datasets. Due to the sheer size of such datasets, combined with the irregular nature of graph processing, these systems face unique design challenges. To facilitate the understanding of this emerging domain, we present the first survey and taxonomy of graph database systems. We focus on identifying and analyzing fundamental categories of these systems (e.g., triple stores, tuple stores, native graph database systems, or object-oriented systems), the associated graph models (e.g., RDF or Labeled Property Graph), data organization techniques (e.g., storing graph data in indexing structures or dividing data into records), and different aspects of data distribution and query execution (e.g., support for sharding and ACID). 45 graph database systems are presented and compared, including Neo4j, OrientDB, or Virtuoso. We outline graph database queries and relationships with associated domains (NoSQL stores, graph streaming, and dynamic graph algorithms). Finally, we describe research and engineering challenges to outline the future of graph databases.

中文翻译:

揭秘图数据库:数据组织、系统设计和图查询的分析和分类

图处理已成为计算机科学多个领域的重要组成部分,例如机器学习、计算科学、医学应用、社交网络分析等。网络或社交网络等众多图可能包含多达数万亿条边。通常,这些图也是动态的(它们的结构随时间变化)并且具有与顶点和边相关联的特定领域的丰富数据。Neo4j 等图形数据库系统支持存储、处理和分析如此庞大、不断发展和丰富的数据集。由于此类数据集的庞大规模,再加上图形处理的不规则性质,这些系统面临着独特的设计挑战。为了促进对这个新兴领域的理解,我们展示了图数据库系统的第一次调查和分类。我们专注于识别和分析这些系统的基本类别(例如,三元组存储、元组存储、本地图数据库系统或面向对象的系统)、相关的图模型(例如,RDF 或标记属性图)、数据组织技术(例如,在索引结构中存储图形数据或将数据划分为记录),以及数据分布和查询执行的不同方面(例如,对分片和 ACID 的支持)。展示并比较了 45 个图形数据库系统,包括 Neo4j、OrientDB 或 Virtuoso。我们概述了图数据库查询以及与相关域(NoSQL 存储、图流和动态图算法)的关系。最后,我们描述了研究和工程挑战,以概述图数据库的未来。原生图形数据库系统,或面向对象的系统)、相关的图形模型(例如,RDF 或标记属性图)、数据组织技术(例如,在索引结构中存储图形数据或将数据划分为记录),以及数据的不同方面分发和查询执行(例如,支持分片和 ACID)。展示并比较了 45 个图形数据库系统,包括 Neo4j、OrientDB 或 Virtuoso。我们概述了图数据库查询以及与相关域(NoSQL 存储、图流和动态图算法)的关系。最后,我们描述了研究和工程挑战,以概述图数据库的未来。原生图形数据库系统,或面向对象的系统)、相关的图形模型(例如,RDF 或标记属性图)、数据组织技术(例如,在索引结构中存储图形数据或将数据划分为记录),以及数据的不同方面分发和查询执行(例如,支持分片和 ACID)。展示并比较了 45 个图形数据库系统,包括 Neo4j、OrientDB 或 Virtuoso。我们概述了图数据库查询以及与相关域(NoSQL 存储、图流和动态图算法)的关系。最后,我们描述了研究和工程挑战,以概述图数据库的未来。以索引结构存储图形数据或将数据划分为记录),以及数据分布和查询执行的不同方面(例如,对分片和 ACID 的支持)。展示并比较了 45 个图形数据库系统,包括 Neo4j、OrientDB 或 Virtuoso。我们概述了图数据库查询以及与相关域(NoSQL 存储、图流和动态图算法)的关系。最后,我们描述了研究和工程挑战,以概述图数据库的未来。以索引结构存储图形数据或将数据划分为记录),以及数据分布和查询执行的不同方面(例如,对分片和 ACID 的支持)。展示并比较了 45 个图形数据库系统,包括 Neo4j、OrientDB 或 Virtuoso。我们概述了图数据库查询以及与相关域(NoSQL 存储、图流和动态图算法)的关系。最后,我们描述了研究和工程挑战,以概述图数据库的未来。和动态图算法)。最后,我们描述了研究和工程挑战,以概述图数据库的未来。和动态图算法)。最后,我们描述了研究和工程挑战,以概述图数据库的未来。
更新日期:2020-04-06
down
wechat
bug