当前位置: X-MOL 学术arXiv.cs.IR › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
What is Normal, What is Strange, and What is Missing in a Knowledge Graph: Unified Characterization via Inductive Summarization
arXiv - CS - Information Retrieval Pub Date : 2020-03-23 , DOI: arxiv-2003.10412
Caleb Belth, Xinyi Zheng, Jilles Vreeken, Danai Koutra

Knowledge graphs (KGs) store highly heterogeneous information about the world in the structure of a graph, and are useful for tasks such as question answering and reasoning. However, they often contain errors and are missing information. Vibrant research in KG refinement has worked to resolve these issues, tailoring techniques to either detect specific types of errors or complete a KG. In this work, we introduce a unified solution to KG characterization by formulating the problem as unsupervised KG summarization with a set of inductive, soft rules, which describe what is normal in a KG, and thus can be used to identify what is abnormal, whether it be strange or missing. Unlike first-order logic rules, our rules are labeled, rooted graphs, i.e., patterns that describe the expected neighborhood around a (seen or unseen) node, based on its type, and information in the KG. Stepping away from the traditional support/confidence-based rule mining techniques, we propose KGist, Knowledge Graph Inductive SummarizaTion, which learns a summary of inductive rules that best compress the KG according to the Minimum Description Length principle---a formulation that we are the first to use in the context of KG rule mining. We apply our rules to three large KGs (NELL, DBpedia, and Yago), and tasks such as compression, various types of error detection, and identification of incomplete information. We show that KGist outperforms task-specific, supervised and unsupervised baselines in error detection and incompleteness identification, (identifying the location of up to 93% of missing entities---over 10% more than baselines), while also being efficient for large knowledge graphs.

中文翻译:

知识图中什么是正常的,什么是奇怪的,什么是缺失的:通过归纳总结的统一表征

知识图 (KG) 在图的结构中存储关于世界的高度异构信息,对于诸如问答和推理等任务非常有用。但是,它们通常包含错误并且缺少信息。KG 细化方面的活跃研究致力于解决这些问题,定制技术以检测特定类型的错误或完成 KG。在这项工作中,我们通过将问题表述为具有一组归纳软规则的无监督 KG 摘要来引入 KG 表征的统一解决方案,这些规则描述了 KG 中的正常情况,因此可用于识别异常情况,是否它很奇怪或丢失。与一阶逻辑规则不同,我们的规则是带标签的、有根的图,即根据类型描述(可见或不可见)节点周围预期邻域的模式,和 KG 中的信息。远离传统的基于支持/置信度的规则挖掘技术,我们提出了 KGist,知识图归纳总结,它学习归纳规则的总结,根据最小描述长度原则最好地压缩 KG——我们正在制定的公式第一个在 KG 规则挖掘的上下文中使用。我们将我们的规则应用于三个大型 KG(NELL、DBpedia 和 Yago),以及诸如压缩、各种类型的错误检测和不完整信息识别等任务。我们表明 KGist 在错误检测和不完整性识别方面优于特定任务的、有监督的和无监督的基线(识别多达 93% 的缺失实体的位置——比基线多 10%),同时对于大知识也很有效图表。远离传统的基于支持/置信度的规则挖掘技术,我们提出了 KGist,知识图归纳总结,它学习归纳规则的总结,根据最小描述长度原则最好地压缩 KG——我们正在制定的公式第一个在 KG 规则挖掘的上下文中使用。我们将我们的规则应用于三个大型 KG(NELL、DBpedia 和 Yago),以及诸如压缩、各种类型的错误检测和不完整信息识别等任务。我们表明 KGist 在错误检测和不完整性识别方面优于特定任务的、有监督的和无监督的基线(识别多达 93% 的缺失实体的位置——比基线多 10%),同时对于大知识也很有效图表。远离传统的基于支持/置信度的规则挖掘技术,我们提出了 KGist,知识图归纳总结,它学习归纳规则的总结,根据最小描述长度原则最好地压缩 KG——我们正在制定的公式第一个在 KG 规则挖掘的上下文中使用。我们将我们的规则应用于三个大型 KG(NELL、DBpedia 和 Yago),以及诸如压缩、各种类型的错误检测和不完整信息识别等任务。我们表明 KGist 在错误检测和不完整性识别方面优于特定任务的、有监督的和无监督的基线(识别多达 93% 的缺失实体的位置——比基线多 10%),同时对于大知识也很有效图表。Knowledge Graph Inductive SummarizaTion,它根据最小描述长度原则学习最能压缩 KG 的归纳规则的摘要——这是我们第一个在 KG 规则挖掘的上下文中使用的公式。我们将我们的规则应用于三个大型 KG(NELL、DBpedia 和 Yago),以及诸如压缩、各种类型的错误检测和不完整信息识别等任务。我们表明 KGist 在错误检测和不完整性识别方面优于特定任务的、有监督的和无监督的基线(识别多达 93% 的缺失实体的位置——比基线多 10%),同时对于大知识也很有效图表。Knowledge Graph Inductive SummarizaTion,它根据最小描述长度原则学习最能压缩 KG 的归纳规则的摘要——这是我们第一个在 KG 规则挖掘的上下文中使用的公式。我们将我们的规则应用于三个大型 KG(NELL、DBpedia 和 Yago),以及诸如压缩、各种类型的错误检测和不完整信息识别等任务。我们表明 KGist 在错误检测和不完整性识别方面优于特定任务的、有监督的和无监督的基线(识别多达 93% 的缺失实体的位置——比基线多 10%),同时对于大知识也很有效图表。它学习了根据最小描述长度原则最好地压缩 KG 的归纳规则的摘要——我们是第一个在 KG 规则挖掘的上下文中使用的公式。我们将我们的规则应用于三个大型 KG(NELL、DBpedia 和 Yago),以及诸如压缩、各种类型的错误检测和不完整信息识别等任务。我们表明 KGist 在错误检测和不完整性识别方面优于特定任务的、有监督的和无监督的基线(识别多达 93% 的缺失实体的位置——比基线多 10%),同时对于大知识也很有效图表。它学习了根据最小描述长度原则最好地压缩 KG 的归纳规则的摘要——我们是第一个在 KG 规则挖掘的上下文中使用的公式。我们将我们的规则应用于三个大型 KG(NELL、DBpedia 和 Yago),以及诸如压缩、各种类型的错误检测和不完整信息识别等任务。我们表明 KGist 在错误检测和不完整性识别方面优于特定任务的、有监督的和无监督的基线(识别多达 93% 的缺失实体的位置——比基线多 10%),同时对于大知识也很有效图表。各种类型的错误检测,以及不完整信息的识别。我们表明 KGist 在错误检测和不完整性识别方面优于特定任务的、有监督的和无监督的基线(识别多达 93% 的缺失实体的位置——比基线多 10%),同时对于大知识也很有效图表。各种类型的错误检测,以及不完整信息的识别。我们表明 KGist 在错误检测和不完整性识别方面优于特定任务的、有监督的和无监督的基线(识别多达 93% 的缺失实体的位置——比基线多 10%),同时对于大知识也很有效图表。
更新日期:2020-03-24
down
wechat
bug