当前位置: X-MOL 学术Comput. J. › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
Adaptive Cross-Lingual Question Generation with Minimal Resources
The Computer Journal ( IF 1.5 ) Pub Date : 2021-06-30 , DOI: 10.1093/comjnl/bxab106
Jianxing Yu 1 , Shiqi Wang 1 , Jian Yin 1
Affiliation  

The task of question generation (QG) aims to create valid questions and correlated answers from the given text. Despite the neural QG approaches have achieved promising results, they are typically developed for languages with rich annotated training data. Because of the high annotation cost, it is difficult to deploy to other low-resource languages. Besides, different samples have their own characteristics on the aspects of text contextual structure, question type and correlations. Without capturing these diversified characteristics, the traditional one-size-fits-all model is hard to generate the best results. To address this problem, we study the task of cross-lingual QG from an adaptive learning perspective. Concretely, we first build a basic QG model on a multilingual space using the labelled data. In this way, we can transfer the supervision from the high-resource language to the language lacking labelled data. We then design a task-specific meta-learner to optimize the basic QG model. Each sample and its similar instances are viewed as a pseudo-QG task. The asking patterns and logical forms contained in the similar samples can be used as a guide to fine-tune the model fitly and produce the optimal results accordingly. Considering that each sample contains the text, question and answer, with unknown semantic correlations among them, we propose a context-dependent retriever to measure the similarity of such structured inputs. Experimental results on three languages of three typical data sets show the effectiveness of our approach.

中文翻译:

使用最少资源的自适应跨语言问题生成

问题生成(QG)的任务旨在从给定的文本中创建有效的问题和相关的答案。尽管神经 QG 方法取得了可喜的成果,但它们通常是为具有丰富注释训练数据的语言开发的。由于注释成本高,很难部署到其他低资源语言。此外,不同的样本在文本上下文结构、问题类型和相关性方面都有自己的特点。如果不捕捉这些多样化的特征,传统的一刀切模型很难产生最佳效果。为了解决这个问题,我们从自适应学习的角度研究了跨语言 QG 的任务。具体来说,我们首先使用标记数据在多语言空间上构建一个基本的 QG 模型。这样,我们可以将监督从高资源语言转移到缺乏标记数据的语言。然后我们设计了一个特定任务的元学习器来优化基本的 QG 模型。每个样本及其类似实例都被视为伪 QG 任务。相似样本中包含的询问模式和逻辑形式可以作为指导,以适当地微调模型并相应地产生最佳结果。考虑到每个样本都包含文本、问题和答案,它们之间具有未知的语义相关性,我们提出了一个上下文相关的检索器来测量这些结构化输入的相似性。在三个典型数据集的三种语言上的实验结果表明了我们方法的有效性。然后我们设计了一个特定任务的元学习器来优化基本的 QG 模型。每个样本及其类似实例都被视为伪 QG 任务。相似样本中包含的询问模式和逻辑形式可以作为指导,以适当地微调模型并相应地产生最佳结果。考虑到每个样本都包含文本、问题和答案,它们之间具有未知的语义相关性,我们提出了一个上下文相关的检索器来测量这些结构化输入的相似性。在三个典型数据集的三种语言上的实验结果表明了我们方法的有效性。然后我们设计了一个特定任务的元学习器来优化基本的 QG 模型。每个样本及其类似实例都被视为伪 QG 任务。相似样本中包含的询问模式和逻辑形式可以作为指导,以适当地微调模型并相应地产生最佳结果。考虑到每个样本都包含文本、问题和答案,它们之间具有未知的语义相关性,我们提出了一个上下文相关的检索器来测量这些结构化输入的相似性。在三个典型数据集的三种语言上的实验结果表明了我们方法的有效性。相似样本中包含的询问模式和逻辑形式可以作为指导,以适当地微调模型并相应地产生最佳结果。考虑到每个样本都包含文本、问题和答案,它们之间具有未知的语义相关性,我们提出了一个上下文相关的检索器来测量这些结构化输入的相似性。在三个典型数据集的三种语言上的实验结果表明了我们方法的有效性。相似样本中包含的询问模式和逻辑形式可以作为指导,以适当地微调模型并相应地产生最佳结果。考虑到每个样本都包含文本、问题和答案,它们之间具有未知的语义相关性,我们提出了一个上下文相关的检索器来测量这些结构化输入的相似性。在三个典型数据集的三种语言上的实验结果表明了我们方法的有效性。
更新日期:2021-06-30
down
wechat
bug