当前位置: X-MOL 学术Comput. Linguist. › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
Automatic Inference of Sound Correspondence Patterns Across Multiple Languages
Computational Linguistics ( IF 9.3 ) Pub Date : 2019-03-01 , DOI: 10.1162/coli_a_00344
Johann-Mattis List 1
Affiliation  

Sound correspondence patterns play a crucial role for linguistic reconstruction. Linguists use them to prove language relationship, to reconstruct proto-forms, and for classical phylogenetic reconstruction based on shared innovations. Cognate words that fail to conform with expected patterns can further point to various kinds of exceptions in sound change, such as analogy or assimilation of frequent words. Here I present an automatic method for the inference of sound correspondence patterns across multiple languages based on a network approach. The core idea is to represent all columns in aligned cognate sets as nodes in a network with edges representing the degree of compatibility between the nodes. The task of inferring all compatible correspondence sets can then be handled as the well-known minimum clique cover problem in graph theory, which essentially seeks to split the graph into the smallest number of cliques in which each node is represented by exactly one clique. The resulting partitions represent all correspondence patterns that can be inferred for a given data set. By excluding those patterns that occur in only a few cognate sets, the core of regularly recurring sound correspondences can be inferred. Based on this idea, the article presents a method for automatic correspondence pattern recognition, which is implemented as part of a Python library which supplements the article. To illustrate the usefulness of the method, I present how the inferred patterns can be used to predict words that have not been observed before.

中文翻译:

自动推断多种语言的声音对应模式

声音对应模式在语言重建中起着至关重要的作用。语言学家用它们来证明语言关系,重建原型,以及基于共享创新进行经典系统发育重建。不符合预期模式的同源词可以进一步指向语音变化中的各种异常,例如常用词的类比或同化。在这里,我提出了一种基于网络方法的自动方法,用于推断跨多种语言的声音对应模式。核心思想是将对齐的同源集合中的所有列表示为网络中的节点,边表示节点之间的兼容程度。推断所有兼容对应集的任务可以作为图论中众所周知的最小集团覆盖问题来处理,它本质上试图将图拆分为最少数量的群,其中每个节点都由一个群表示。结果分区表示可以为给定数据集推断出的所有对应模式。通过排除那些仅出现在少数同源集合中的模式,可以推断出定期重复出现的声音对应的核心。基于这个想法,本文提出了一种自动对应模式识别的方法,该方法作为对本文进行补充的 Python 库的一部分来实现。为了说明该方法的实用性,我介绍了如何使用推断的模式来预测以前没有观察到的单词。结果分区表示可以为给定数据集推断出的所有对应模式。通过排除那些仅出现在少数同源集合中的模式,可以推断出定期重复出现的声音对应的核心。基于这个想法,本文提出了一种自动对应模式识别的方法,该方法作为对本文进行补充的 Python 库的一部分来实现。为了说明该方法的实用性,我介绍了如何使用推断的模式来预测以前没有观察到的单词。结果分区表示可以为给定数据集推断出的所有对应模式。通过排除那些仅出现在少数同源集合中的模式,可以推断出定期重复出现的声音对应的核心。基于这个想法,本文提出了一种自动对应模式识别的方法,该方法作为对本文进行补充的 Python 库的一部分来实现。为了说明该方法的实用性,我介绍了如何使用推断的模式来预测以前没有观察到的单词。本文介绍了一种自动对应模式识别的方法,该方法是作为对本文进行补充的 Python 库的一部分来实现的。为了说明该方法的实用性,我介绍了如何使用推断的模式来预测以前没有观察到的单词。本文介绍了一种自动对应模式识别的方法,该方法是作为对本文进行补充的 Python 库的一部分来实现的。为了说明该方法的实用性,我介绍了如何使用推断的模式来预测以前没有观察到的单词。
更新日期:2019-03-01
down
wechat
bug