当前位置: X-MOL 学术arXiv.cs.DC › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
Distributed Subgraph Enumeration via Backtracking-based Framework
arXiv - CS - Distributed, Parallel, and Cluster Computing Pub Date : 2020-06-23 , DOI: arxiv-2006.12819
Zhaokang Wang, Weiwei Hu, Chunfeng Yuan, Rong Gu, Yihua Huang

Finding or monitoring subgraph instances that are isomorphic to a given pattern graph in a data graph is a fundamental query operation in many graph analytic applications, such as network motif mining and fraud detection. The state-of-the-art distributed methods are inefficient in communication. They have to shuffle partial matching results during the distributed multiway join. The partial matching results may be much larger than the data graph itself. To overcome the drawback, we develop the Batch-BENU framework (B-BENU) for distributed subgraph enumeration. B-BENU executes a group of local search tasks in parallel. Each task enumerates subgraphs around a vertex in the data graph, guided by a backtracking-based execution plan. B-BENU does not shuffle any partial matching result. Instead, it stores the data graph in a distributed database. Each task queries adjacency sets of the data graph on demand. To support dynamic data graphs, we propose the concept of incremental pattern graphs and turn continuous subgraph enumeration into enumerating incremental pattern graphs at each time step. We develop the Streaming-BENU framework (S-BENU) to enumerate their matches efficiently. We implement B-BENU and S-BENU with the local database cache and the task splitting techniques. The extensive experiments show that B-BENU and S-BENU can scale to big data graphs and complex pattern graphs. They outperform the state-of-the-art methods by up to one and two orders of magnitude, respectively.

中文翻译:

通过基于回溯的框架的分布式子图枚举

在数据图中查找或监视与给定模式图同构的子图实例是许多图分析应用程序中的基本查询操作,例如网络基序挖掘和欺诈检测。最先进的分布式方法在通信方面效率低下。他们必须在分布式多路连接期间打乱部分匹配结果。部分匹配结果可能比数据图本身大得多。为了克服这个缺点,我们开发了用于分布式子图枚举的 Batch-BENU 框架(B-BENU)。B-BENU 并行执行一组本地搜索任务。每个任务在基于回溯的执行计划的指导下,枚举数据图中顶点周围的子图。B-BENU 不打乱任何部分匹配结果。相反,它将数据图存储在分布式数据库中。每个任务按需查询数据图的邻接集。为了支持动态数据图,我们提出了增量模式图的概念,并将连续子图枚举转换为每个时间步长的枚举增量模式图。我们开发了 Streaming-BENU 框架 (S-BENU) 来有效地枚举它们的匹配项。我们使用本地数据库缓存和任务拆分技术实现 B-BENU 和 S-BENU。大量实验表明,B-BENU 和 S-BENU 可以扩展到大数据图和复杂模式图。它们分别比最先进的方法高出一个和两个数量级。我们提出了增量模式图的概念,并将连续子图枚举转换为每个时间步长的枚举增量模式图。我们开发了 Streaming-BENU 框架 (S-BENU) 来有效地枚举它们的匹配项。我们使用本地数据库缓存和任务拆分技术实现 B-BENU 和 S-BENU。大量实验表明,B-BENU 和 S-BENU 可以扩展到大数据图和复杂模式图。它们分别比最先进的方法高出一个和两个数量级。我们提出了增量模式图的概念,并将连续子图枚举转换为每个时间步长的枚举增量模式图。我们开发了 Streaming-BENU 框架 (S-BENU) 来有效地枚举它们的匹配项。我们使用本地数据库缓存和任务拆分技术实现 B-BENU 和 S-BENU。大量实验表明,B-BENU 和 S-BENU 可以扩展到大数据图和复杂模式图。它们分别比最先进的方法高出一个和两个数量级。大量实验表明,B-BENU 和 S-BENU 可以扩展到大数据图和复杂模式图。它们分别比最先进的方法高出一个和两个数量级。大量实验表明,B-BENU 和 S-BENU 可以扩展到大数据图和复杂模式图。它们分别比最先进的方法高出一个和两个数量级。
更新日期:2020-07-17
down
wechat
bug