当前位置: X-MOL 学术arXiv.cs.AI › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
Pre-train, Prompt, and Predict: A Systematic Survey of Prompting Methods in Natural Language Processing
arXiv - CS - Artificial Intelligence Pub Date : 2021-07-28 , DOI: arxiv-2107.13586
Pengfei Liu, Weizhe Yuan, Jinlan Fu, Zhengbao Jiang, Hiroaki Hayashi, Graham Neubig

This paper surveys and organizes research works in a new paradigm in natural language processing, which we dub "prompt-based learning". Unlike traditional supervised learning, which trains a model to take in an input x and predict an output y as P(y|x), prompt-based learning is based on language models that model the probability of text directly. To use these models to perform prediction tasks, the original input x is modified using a template into a textual string prompt x' that has some unfilled slots, and then the language model is used to probabilistically fill the unfilled information to obtain a final string x, from which the final output y can be derived. This framework is powerful and attractive for a number of reasons: it allows the language model to be pre-trained on massive amounts of raw text, and by defining a new prompting function the model is able to perform few-shot or even zero-shot learning, adapting to new scenarios with few or no labeled data. In this paper we introduce the basics of this promising paradigm, describe a unified set of mathematical notations that can cover a wide variety of existing work, and organize existing work along several dimensions, e.g.the choice of pre-trained models, prompts, and tuning strategies. To make the field more accessible to interested beginners, we not only make a systematic review of existing works and a highly structured typology of prompt-based concepts, but also release other resources, e.g., a website http://pretrain.nlpedia.ai/ including constantly-updated survey, and paperlist.

中文翻译:

预训练、提示和预测:自然语言处理中提示方法的系统调查

本文在自然语言处理的新范式中调查和组织研究工作,我们称之为“基于提示的学习”。与传统的监督学习不同,后者训练模型接受输入 x 并将输出 y 预测为 P(y|x),基于提示的学习基于直接对文本概率进行建模的语言模型。为了使用这些模型执行预测任务,使用模板将原始输入 x 修改为具有一些未填充槽的文本字符串提示 x',然后使用语言模型对未填充信息进行概率填充以获得最终字符串 x ,从中可以导出最终输出 y。由于多种原因,该框架功能强大且具有吸引力:它允许语言模型在大量原始文本上进行预训练,通过定义新的提示功能,该模型能够执行少样本甚至零样本学习,适应具有很少或没有标记数据的新场景。在本文中,我们介绍了这个有前途的范式的基础知识,描述了一组统一的数学符号,可以涵盖广泛的现有工作,并沿着多个维度组织现有工作,例如预训练模型的选择、提示和调整策略. 为了让感兴趣的初学者更容易接触到这个领域,我们不仅对现有作品进行了系统的审查,并对基于提示的概念进行了高度结构化的分类,而且还发布了其他资源,例如网站 http://pretrain.nlpedia.ai / 包括不断更新的调查和文件清单。适应具有很少或没有标记数据的新场景。在本文中,我们介绍了这个有前途的范式的基础知识,描述了一组统一的数学符号,可以涵盖广泛的现有工作,并沿着多个维度组织现有工作,例如预训练模型的选择、提示和调整策略. 为了让感兴趣的初学者更容易接触到这个领域,我们不仅对现有作品进行了系统的审查,并对基于提示的概念进行了高度结构化的分类,而且还发布了其他资源,例如网站 http://pretrain.nlpedia.ai / 包括不断更新的调查和文件清单。适应具有很少或没有标记数据的新场景。在本文中,我们介绍了这个有前途的范式的基础知识,描述了一组统一的数学符号,可以涵盖广泛的现有工作,并沿着多个维度组织现有工作,例如预训练模型的选择、提示和调整策略. 为了让感兴趣的初学者更容易接触到这个领域,我们不仅对现有作品进行了系统的审查,并对基于提示的概念进行了高度结构化的分类,而且还发布了其他资源,例如网站 http://pretrain.nlpedia.ai / 包括不断更新的调查和文件清单。并沿多个维度组织现有工作,例如选择预训练模型、提示和调整策略。为了让感兴趣的初学者更容易接触到这个领域,我们不仅对现有作品进行了系统的审查,并对基于提示的概念进行了高度结构化的分类,而且还发布了其他资源,例如网站 http://pretrain.nlpedia.ai / 包括不断更新的调查和文件清单。并沿多个维度组织现有工作,例如选择预训练模型、提示和调整策略。为了让感兴趣的初学者更容易接触到这个领域,我们不仅对现有作品进行了系统的审查,并对基于提示的概念进行了高度结构化的分类,而且还发布了其他资源,例如网站 http://pretrain.nlpedia.ai / 包括不断更新的调查和文件清单。
更新日期:2021-07-30
down
wechat
bug