当前位置: X-MOL 学术arXiv.cs.AI › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
Tag and Correct: Question aware Open Information Extraction with Two-stage Decoding
arXiv - CS - Artificial Intelligence Pub Date : 2020-09-16 , DOI: arxiv-2009.07406
Martin Kuo, Yaobo Liang, Lei Ji, Nan Duan, Linjun Shou, Ming Gong, Peng Chen

Question Aware Open Information Extraction (Question aware Open IE) takes question and passage as inputs, outputting an answer tuple which contains a subject, a predicate, and one or more arguments. Each field of answer is a natural language word sequence and is extracted from the passage. The semi-structured answer has two advantages which are more readable and falsifiable compared to span answer. There are two approaches to solve this problem. One is an extractive method which extracts candidate answers from the passage with the Open IE model, and ranks them by matching with questions. It fully uses the passage information at the extraction step, but the extraction is independent to the question. The other one is the generative method which uses a sequence to sequence model to generate answers directly. It combines the question and passage as input at the same time, but it generates the answer from scratch, which does not use the facts that most of the answer words come from in the passage. To guide the generation by passage, we present a two-stage decoding model which contains a tagging decoder and a correction decoder. At the first stage, the tagging decoder will tag keywords from the passage. At the second stage, the correction decoder will generate answers based on tagged keywords. Our model could be trained end-to-end although it has two stages. Compared to previous generative models, we generate better answers by generating coarse to fine. We evaluate our model on WebAssertions (Yan et al., 2018) which is a Question aware Open IE dataset. Our model achieves a BLEU score of 59.32, which is better than previous generative methods.

中文翻译:

标记和更正:使用两阶段解码的问题感知开放信息提取

Question Aware Open Information Extraction (Question Aware Open IE) 将问题和段落作为输入,输出包含主语、谓语和一个或多个参数的答案元组。答案的每个字段都是一个自然语言词序列,是从文章中提取出来的。与跨度答案相比,半结构化答案具有两个优点,它们更具可读性和可证伪性。有两种方法可以解决这个问题。一种是抽取方法,利用Open IE模型从文章中抽取候选答案,并通过匹配问题对它们进行排序。它在提取步骤充分利用了段落信息,但提取与问题无关。另一种是生成方法,它使用序列到序列模型直接生成答案。它同时结合了问题和段落作为输入,但它从头开始生成答案,它没有使用大部分答案词来自段落中的事实。为了引导通过通道生成,我们提出了一个包含标记解码器和校正解码器的两阶段解码模型。在第一阶段,标记解码器将从段落中标记关键字。在第二阶段,更正解码器将根据标记的关键字生成答案。我们的模型可以进行端到端的训练,尽管它有两个阶段。与之前的生成模型相比,我们通过从粗到细生成更好的答案。我们在 WebAssertions (Yan et al., 2018) 上评估我们的模型,这是一个问题感知型开放 IE 数据集。我们的模型达到了 59.32 的 BLEU 分数,这比以前的生成方法要好。它没有使用大部分答案词来自文章中的事实。为了引导通过通道生成,我们提出了一个包含标记解码器和校正解码器的两阶段解码模型。在第一阶段,标记解码器将从段落中标记关键字。在第二阶段,更正解码器将根据标记的关键字生成答案。我们的模型可以进行端到端的训练,尽管它有两个阶段。与之前的生成模型相比,我们通过从粗到细生成更好的答案。我们在 WebAssertions (Yan et al., 2018) 上评估我们的模型,这是一个问题感知型开放 IE 数据集。我们的模型达到了 59.32 的 BLEU 分数,这比以前的生成方法要好。它没有使用大部分答案词来自文章中的事实。为了引导通过通道生成,我们提出了一个包含标记解码器和校正解码器的两阶段解码模型。在第一阶段,标记解码器将从段落中标记关键字。在第二阶段,更正解码器将根据标记的关键字生成答案。我们的模型可以进行端到端的训练,尽管它有两个阶段。与之前的生成模型相比,我们通过从粗到细生成更好的答案。我们在 WebAssertions (Yan et al., 2018) 上评估我们的模型,这是一个问题感知型开放 IE 数据集。我们的模型达到了 59.32 的 BLEU 分数,这比以前的生成方法要好。为了引导通过通道生成,我们提出了一个包含标记解码器和校正解码器的两阶段解码模型。在第一阶段,标记解码器将从段落中标记关键字。在第二阶段,更正解码器将根据标记的关键字生成答案。我们的模型可以进行端到端的训练,尽管它有两个阶段。与之前的生成模型相比,我们通过从粗到细生成更好的答案。我们在 WebAssertions (Yan et al., 2018) 上评估我们的模型,这是一个问题感知型开放 IE 数据集。我们的模型达到了 59.32 的 BLEU 分数,这比以前的生成方法要好。为了引导通过通道生成,我们提出了一个包含标记解码器和校正解码器的两阶段解码模型。在第一阶段,标记解码器将从段落中标记关键字。在第二阶段,更正解码器将根据标记的关键字生成答案。我们的模型可以进行端到端的训练,尽管它有两个阶段。与之前的生成模型相比,我们通过从粗到细生成更好的答案。我们在 WebAssertions (Yan et al., 2018) 上评估我们的模型,这是一个问题感知型开放 IE 数据集。我们的模型达到了 59.32 的 BLEU 分数,这比以前的生成方法要好。校正解码器将根据标记的关键字生成答案。我们的模型可以进行端到端的训练,尽管它有两个阶段。与之前的生成模型相比,我们通过从粗到细生成更好的答案。我们在 WebAssertions (Yan et al., 2018) 上评估我们的模型,这是一个问题感知型开放 IE 数据集。我们的模型达到了 59.32 的 BLEU 分数,这比以前的生成方法要好。校正解码器将根据标记的关键字生成答案。我们的模型可以进行端到端的训练,尽管它有两个阶段。与之前的生成模型相比,我们通过从粗到细生成更好的答案。我们在 WebAssertions (Yan et al., 2018) 上评估我们的模型,这是一个问题感知型开放 IE 数据集。我们的模型达到了 59.32 的 BLEU 分数,这比以前的生成方法要好。
更新日期:2020-09-17
down
wechat
bug