当前位置:
X-MOL 学术
›
arXiv.cs.FL
›
论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
Learning of Structurally Unambiguous Probabilistic Grammars
arXiv - CS - Formal Languages and Automata Theory Pub Date : 2020-11-15 , DOI: arxiv-2011.07472 Dolav Nitay, Dana Fisman, Michal Ziv-Ukelson
arXiv - CS - Formal Languages and Automata Theory Pub Date : 2020-11-15 , DOI: arxiv-2011.07472 Dolav Nitay, Dana Fisman, Michal Ziv-Ukelson
The problem of identifying a probabilistic context free grammar has two
aspects: the first is determining the grammar's topology (the rules of the
grammar) and the second is estimating probabilistic weights for each rule.
Given the hardness results for learning context-free grammars in general, and
probabilistic grammars in particular, most of the literature has concentrated
on the second problem. In this work we address the first problem. We restrict
attention to structurally unambiguous weighted context-free grammars (SUWCFG)
and provide a query learning algorithm for structurally unambiguous
probabilistic context-free grammars (SUPCFG). We show that SUWCFG can be
represented using co-linear multiplicity tree automata (CMTA), and provide a
polynomial learning algorithm that learns CMTAs. We show that the learned CMTA
can be converted into a probabilistic grammar, thus providing a complete
algorithm for learning a structurally unambiguous probabilistic context free
grammar (both the grammar topology and the probabilistic weights) using
structured membership queries and structured equivalence queries. We
demonstrate the usefulness of our algorithm in learning PCFGs over genomic
data.
中文翻译:
学习结构无歧义的概率语法
识别概率上下文无关文法的问题有两个方面:第一是确定文法的拓扑(文法规则),第二是估计每个规则的概率权重。鉴于学习上下文无关语法,特别是概率语法的难度结果,大多数文献都集中在第二个问题上。在这项工作中,我们解决了第一个问题。我们将注意力限制在结构明确的加权上下文无关文法(SUWCFG)上,并为结构明确的概率上下文无关文法(SUPCFG)提供查询学习算法。我们表明 SUWCFG 可以使用共线多重树自动机 (CMTA) 表示,并提供了一种学习 CMTA 的多项式学习算法。我们表明,学习到的 CMTA 可以转换为概率语法,从而提供了一个完整的算法,用于使用结构化成员查询和结构化等价查询来学习结构无歧义的概率上下文无关语法(包括语法拓扑和概率权重)。我们证明了我们的算法在通过基因组数据学习 PCFG 方面的有用性。
更新日期:2020-11-17
中文翻译:
学习结构无歧义的概率语法
识别概率上下文无关文法的问题有两个方面:第一是确定文法的拓扑(文法规则),第二是估计每个规则的概率权重。鉴于学习上下文无关语法,特别是概率语法的难度结果,大多数文献都集中在第二个问题上。在这项工作中,我们解决了第一个问题。我们将注意力限制在结构明确的加权上下文无关文法(SUWCFG)上,并为结构明确的概率上下文无关文法(SUPCFG)提供查询学习算法。我们表明 SUWCFG 可以使用共线多重树自动机 (CMTA) 表示,并提供了一种学习 CMTA 的多项式学习算法。我们表明,学习到的 CMTA 可以转换为概率语法,从而提供了一个完整的算法,用于使用结构化成员查询和结构化等价查询来学习结构无歧义的概率上下文无关语法(包括语法拓扑和概率权重)。我们证明了我们的算法在通过基因组数据学习 PCFG 方面的有用性。