当前位置: X-MOL 学术arXiv.cs.CL › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
Humpty Dumpty: Controlling Word Meanings via Corpus Poisoning
arXiv - CS - Computation and Language Pub Date : 2020-01-14 , DOI: arxiv-2001.04935
Roei Schuster, Tal Schuster, Yoav Meri, Vitaly Shmatikov

Word embeddings, i.e., low-dimensional vector representations such as GloVe and SGNS, encode word "meaning" in the sense that distances between words' vectors correspond to their semantic proximity. This enables transfer learning of semantics for a variety of natural language processing tasks. Word embeddings are typically trained on large public corpora such as Wikipedia or Twitter. We demonstrate that an attacker who can modify the corpus on which the embedding is trained can control the "meaning" of new and existing words by changing their locations in the embedding space. We develop an explicit expression over corpus features that serves as a proxy for distance between words and establish a causative relationship between its values and embedding distances. We then show how to use this relationship for two adversarial objectives: (1) make a word a top-ranked neighbor of another word, and (2) move a word from one semantic cluster to another. An attack on the embedding can affect diverse downstream tasks, demonstrating for the first time the power of data poisoning in transfer learning scenarios. We use this attack to manipulate query expansion in information retrieval systems such as resume search, make certain names more or less visible to named entity recognition models, and cause new words to be translated to a particular target word regardless of the language. Finally, we show how the attacker can generate linguistically likely corpus modifications, thus fooling defenses that attempt to filter implausible sentences from the corpus using a language model.

中文翻译:

Humpty Dumpty:通过语料库中毒控制词义

词嵌入,即低维向量表示,例如 GloVe 和 SGNS,在词向量之间的距离对应于它们的语义接近度的意义上对词的“意义”进行编码。这使得对各种自然语言处理任务的语义迁移学习成为可能。词嵌入通常在大型公共语料库(如维基百科或 Twitter)上进行训练。我们证明,可以修改训练嵌入的语料库的攻击者可以通过改变它们在嵌入空间中的位置来控制新词和现有词的“含义”。我们开发了一个关于语料库特征的显式表达,作为词之间距离的代理,并在其值和嵌入距离之间建立因果关系。然后,我们展示了如何将这种关系用于两个对抗性目标:(1)使一个词成为另一个词的排名靠前的邻居,以及(2)将一个词从一个语义集群移动到另一个。对嵌入的攻击会影响不同的下游任务,首次证明了数据中毒在迁移学习场景中的威力。我们使用这种攻击来操纵信息检索系统(例如简历搜索)中的查询扩展,使某些名称或多或少对命名实体识别模型可见,并导致新词被翻译成特定的目标词而不管语言如何。最后,我们展示了攻击者如何生成语言上可能的语料库修改,从而愚弄试图使用语言模型从语料库中过滤不可信句子的防御。(1) 使一个词成为另一个词的排名靠前的邻居,以及 (2) 将一个词从一个语义簇移动到另一个词组。对嵌入的攻击会影响不同的下游任务,首次证明了数据中毒在迁移学习场景中的威力。我们使用这种攻击来操纵信息检索系统(例如简历搜索)中的查询扩展,使某些名称或多或少对命名实体识别模型可见,并导致新词被翻译成特定的目标词而不管语言如何。最后,我们展示了攻击者如何生成语言上可能的语料库修改,从而愚弄试图使用语言模型从语料库中过滤不可信句子的防御。(1) 使一个词成为另一个词的排名靠前的邻居,以及 (2) 将一个词从一个语义簇移动到另一个词组。对嵌入的攻击会影响不同的下游任务,首次证明了数据中毒在迁移学习场景中的威力。我们使用这种攻击来操纵信息检索系统(例如简历搜索)中的查询扩展,使某些名称或多或少对命名实体识别模型可见,并导致新词被翻译成特定的目标词而不管语言如何。最后,我们展示了攻击者如何生成语言上可能的语料库修改,从而愚弄试图使用语言模型从语料库中过滤不可信句子的防御。对嵌入的攻击会影响不同的下游任务,首次证明了数据中毒在迁移学习场景中的威力。我们使用这种攻击来操纵信息检索系统(例如简历搜索)中的查询扩展,使某些名称或多或少对命名实体识别模型可见,并导致新词被翻译成特定的目标词而不管语言如何。最后,我们展示了攻击者如何生成语言上可能的语料库修改,从而愚弄试图使用语言模型从语料库中过滤不可信句子的防御。对嵌入的攻击会影响不同的下游任务,首次证明了数据中毒在迁移学习场景中的威力。我们使用这种攻击来操纵信息检索系统(例如简历搜索)中的查询扩展,使某些名称或多或少对命名实体识别模型可见,并导致新词被翻译成特定的目标词而不管语言如何。最后,我们展示了攻击者如何生成语言上可能的语料库修改,从而愚弄试图使用语言模型从语料库中过滤不可信句子的防御。使某些名称或多或少对命名实体识别模型可见,并使新词被翻译成特定的目标词,而不管语言如何。最后,我们展示了攻击者如何生成语言上可能的语料库修改,从而愚弄试图使用语言模型从语料库中过滤不可信句子的防御。使某些名称或多或少对命名实体识别模型可见,并使新词被翻译成特定的目标词,而不管语言如何。最后,我们展示了攻击者如何生成语言上可能的语料库修改,从而愚弄试图使用语言模型从语料库中过滤不可信句子的防御。
更新日期:2020-01-15
down
wechat
bug