当前位置: X-MOL 学术Artif. Intell. › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
ASER: Towards large-scale commonsense knowledge acquisition via higher-order selectional preference over eventualities
Artificial Intelligence ( IF 14.4 ) Pub Date : 2022-05-17 , DOI: 10.1016/j.artint.2022.103740
Hongming Zhang , Xin Liu , Haojie Pan , Haowen Ke , Jiefu Ou , Tianqing Fang , Yangqiu Song

Commonsense knowledge acquisition and reasoning have long been a core artificial intelligence problem. However, in the past, there has been a lack of scalable methods to collect commonsense knowledge. In this paper, we propose to develop principles for collecting commonsense knowledge based on selectional preference, which is a common phenomenon in human languages that has been shown to be related to semantics. We generalize the definition of selectional preference from one-hop linguistic syntactic relations to higher-order relations over linguistic graphs. Unlike previous commonsense knowledge definitions (e.g., ConceptNet), the selectional preference (SP) knowledge only relies on statistical distributions over linguistic graphs, which can be efficiently and accurately acquired from the unlabeled corpora with modern tools, rather than human-defined relations. As a result, acquiring SP knowledge is a much more scalable way of acquiring commonsense knowledge. Following this principle, we develop a large-scale eventuality (a linguistic term covering activity, state, and event)-based knowledge graph ASER, where each eventuality is represented as a dependency graph, and the relation between them is a discourse relation defined in shallow discourse parsing. The higher-order selectional preference over collected linguistic graphs reflects various kinds of commonsense knowledge. For example, dogs are more likely to bark than cats as the eventuality “dog barks” appears 14,998 times in ASER while “cat barks” only appears 6 times. “Be hungry” is more likely to be the reason rather than result of “eat food” as the edge 〈“be hungry,” Cause, “eat food”〉 appears in ASER while 〈“eat food,” Cause, “be hungry”〉 does not. Moreover, motivated by the observation that humans understand events by abstracting the observed events to a higher level and can thus transfer their knowledge to new events, we propose a conceptualization module on top of the collected knowledge to significantly boost the coverage of ASER. In total, ASER contains 648 million edges between 438 million eventualities. After conceptualization with Probase, a selectional preference based concept-instance relational knowledge base, our concept graph contains 15 million conceptualized eventualities and 224 million edges between them. Detailed analysis is provided to demonstrate its quality. All the collected data, APIs, and tools that can help convert collected SP knowledge into the format of ConceptNet are available at https://github.com/HKUST-KnowComp/ASER.



中文翻译:

ASER:通过对可能性的高阶选择偏好来实现大规模的常识知识获取

常识知识的获取和推理长期以来一直是人工智能的核心问题。然而,在过去,缺乏可扩展的方法来收集常识知识。在本文中,我们建议制定基于选择偏好收集常识知识的原则,这是人类语言中的一种常见现象,已被证明与语义有关。我们将选择偏好的定义从一跳语言句法关系推广到语言图上的高阶关系。与以前的常识知识定义(例如,ConceptNet)不同,选择偏好(SP)知识仅依赖于语言图上的统计分布,可以使用现代工具从未标记的语料库中高效准确地获取,而不是人为定义的关系。因此,获取 SP 知识是获取常识知识的一种更具可扩展性的方式。遵循这一原则,我们开发了一个基于大规模事件(一个涵盖活动、状态和事件的语言术语)的知识图谱 ASER,其中每个事件都表示为一个依赖图,它们之间的关系是定义在浅层话语解析。对收集的语言图的高阶选择偏好反映了各种常识知识。例如,狗比猫更容易吠叫,因为“狗吠”在 ASER 中出现了 14,998 次,而“猫吠”只出现了 6 次。“饿了”更可能是“吃食物”作为边缘的原因而不是结果<“饿了”,获取 SP 知识是获取常识知识的一种更具可扩展性的方式。遵循这一原则,我们开发了一个基于大规模事件(一个涵盖活动、状态和事件的语言术语)的知识图谱 ASER,其中每个事件都表示为一个依赖图,它们之间的关系是定义在浅层话语解析。对收集的语言图的高阶选择偏好反映了各种常识知识。例如,狗比猫更容易吠叫,因为“狗吠”在 ASER 中出现了 14,998 次,而“猫吠”只出现了 6 次。“饿了”更可能是“吃食物”作为边缘的原因而不是结果<“饿了”,获取 SP 知识是获取常识知识的一种更具可扩展性的方式。遵循这一原则,我们开发了一个基于大规模事件(一个涵盖活动、状态和事件的语言术语)的知识图谱 ASER,其中每个事件都表示为一个依赖图,它们之间的关系是定义在浅层话语解析。对收集的语言图的高阶选择偏好反映了各种常识知识。例如,狗比猫更容易吠叫,因为“狗吠”在 ASER 中出现了 14,998 次,而“猫吠”只出现了 6 次。“饿了”更可能是“吃食物”作为边缘的原因而不是结果<“饿了”,我们开发了一个基于大规模事件(一个涵盖活动、状态和事件的语言术语)的知识图谱 ASER,其中每个事件都表示为一个依赖图,它们之间的关系是在浅层话语解析中定义的话语关系。对收集的语言图的高阶选择偏好反映了各种常识知识。例如,狗比猫更容易吠叫,因为“狗吠”在 ASER 中出现了 14,998 次,而“猫吠”只出现了 6 次。“饿了”更可能是“吃食物”作为边缘的原因而不是结果<“饿了”,我们开发了一个基于大规模事件(一个涵盖活动、状态和事件的语言术语)的知识图谱 ASER,其中每个事件都表示为一个依赖图,它们之间的关系是在浅层话语解析中定义的话语关系。对收集的语言图的高阶选择偏好反映了各种常识知识。例如,狗比猫更容易吠叫,因为“狗吠”在 ASER 中出现了 14,998 次,而“猫吠”只出现了 6 次。“饿了”更可能是“吃食物”作为边缘的原因而不是结果<“饿了”,它们之间的关系是浅层话语解析中定义的话语关系。对收集的语言图的高阶选择偏好反映了各种常识知识。例如,狗比猫更容易吠叫,因为“狗吠”在 ASER 中出现了 14,998 次,而“猫吠”只出现了 6 次。“饿了”更可能是“吃食物”作为边缘的原因而不是结果<“饿了”,它们之间的关系是浅层话语解析中定义的话语关系。对收集的语言图的高阶选择偏好反映了各种常识知识。例如,狗比猫更容易吠叫,因为“狗吠”在 ASER 中出现了 14,998 次,而“猫吠”只出现了 6 次。“饿了”更可能是“吃食物”作为边缘的原因而不是结果<“饿了”,Cause , “eat food”> 出现在 ASER 中,而 <“eat food,” Cause,“饿了”〉没有。此外,由于观察到人类通过将观察到的事件抽象到更高层次来理解事件,从而可以将他们的知识转移到新事件中,我们在收集的知识之上提出了一个概念化模块,以显着提高 ASER 的覆盖率。总的来说,ASER 在 4.38 亿个可能性之间包含 6.48 亿条边。在使用基于选择偏好的概念实例关系知识库 Probase 进行概念化后,我们的概念图包含 1500 万个概念化的可能性和它们之间的 2.24 亿条边。提供详细分析以证明其质量。所有收集的数据、API 和工具都可以帮助将收集的 SP 知识转换为 ConceptNet 的格式,可在 https://github.com/HKUST-KnowComp/ASER 获得。

更新日期:2022-05-17
down
wechat
bug