当前位置: X-MOL 学术arXiv.cs.CL › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
Detecting New Word Meanings: A Comparison of Word Embedding Models in Spanish
arXiv - CS - Computation and Language Pub Date : 2020-01-12 , DOI: arxiv-2001.05285
Andr\'es Torres-Rivera and Juan-Manuel Torres-Moreno

Semantic neologisms (SN) are defined as words that acquire a new word meaning while maintaining their form. Given the nature of this kind of neologisms, the task of identifying these new word meanings is currently performed manually by specialists at observatories of neology. To detect SN in a semi-automatic way, we developed a system that implements a combination of the following strategies: topic modeling, keyword extraction, and word sense disambiguation. The role of topic modeling is to detect the themes that are treated in the input text. Themes within a text give clues about the particular meaning of the words that are used, for example: viral has one meaning in the context of computer science (CS) and another when talking about health. To extract keywords, we used TextRank with POS tag filtering. With this method, we can obtain relevant words that are already part of the Spanish lexicon. We use a deep learning model to determine if a given keyword could have a new meaning. Embeddings that are different from all the known meanings (or topics) indicate that a word might be a valid SN candidate. In this study, we examine the following word embedding models: Word2Vec, Sense2Vec, and FastText. The models were trained with equivalent parameters using Wikipedia in Spanish as corpora. Then we used a list of words and their concordances (obtained from our database of neologisms) to show the different embeddings that each model yields. Finally, we present a comparison of these outcomes with the concordances of each word to show how we can determine if a word could be a valid candidate for SN.

中文翻译:

检测新词的含义:西班牙语词嵌入模型的比较

语义新词 (SN) 被定义为在保持其形式的同时获得新词义的词。鉴于这种新词的性质,识别这些新词含义的任务目前由新学天文台的专家手动执行。为了以半自动方式检测 SN,我们开发了一个系统,该系统实现了以下策略的组合:主题建模、关键字提取和词义消歧。主题建模的作用是检测输入文本中处理的主题。文本中的主题提供有关所用词的特定含义的线索,例如:病毒在计算机科学 (CS) 的上下文中具有一种含义,而在谈论健康时具有另一种含义。为了提取关键字,我们使用了 TextRank 和 POS 标签过滤。用这种方法,我们可以获得已经是西班牙语词典一部分的相关词。我们使用深度学习模型来确定给定的关键字是否具有新的含义。与所有已知含义(或主题)不同的嵌入表明一个词可能是有效的 SN 候选者。在这项研究中,我们检查了以下词嵌入模型:Word2Vec、Sense2Vec 和 FastText。使用西班牙语维基百科作为语料库使用等效参数训练模型。然后我们使用了一个单词列表及其索引(从我们的新词数据库中获得)来显示每个模型产生的不同嵌入。最后,我们将这些结果与每个词的索引进行比较,以展示我们如何确定一个词是否可以成为 SN 的有效候选者。我们使用深度学习模型来确定给定的关键字是否具有新的含义。与所有已知含义(或主题)不同的嵌入表明一个词可能是有效的 SN 候选者。在这项研究中,我们检查了以下词嵌入模型:Word2Vec、Sense2Vec 和 FastText。使用西班牙语维基百科作为语料库使用等效参数训练模型。然后我们使用了一个单词列表及其索引(从我们的新词数据库中获得)来显示每个模型产生的不同嵌入。最后,我们将这些结果与每个词的索引进行比较,以展示我们如何确定一个词是否可以成为 SN 的有效候选者。我们使用深度学习模型来确定给定的关键字是否具有新的含义。与所有已知含义(或主题)不同的嵌入表明一个词可能是有效的 SN 候选者。在这项研究中,我们检查了以下词嵌入模型:Word2Vec、Sense2Vec 和 FastText。使用西班牙语维基百科作为语料库使用等效参数训练模型。然后我们使用了一个单词列表及其索引(从我们的新词数据库中获得)来显示每个模型产生的不同嵌入。最后,我们将这些结果与每个词的索引进行比较,以展示我们如何确定一个词是否可以成为 SN 的有效候选者。与所有已知含义(或主题)不同的嵌入表明一个词可能是有效的 SN 候选者。在这项研究中,我们检查了以下词嵌入模型:Word2Vec、Sense2Vec 和 FastText。使用西班牙语维基百科作为语料库使用等效参数训练模型。然后我们使用了一个单词列表及其索引(从我们的新词数据库中获得)来显示每个模型产生的不同嵌入。最后,我们将这些结果与每个词的索引进行比较,以展示我们如何确定一个词是否可以成为 SN 的有效候选者。与所有已知含义(或主题)不同的嵌入表明一个词可能是有效的 SN 候选者。在这项研究中,我们检查了以下词嵌入模型:Word2Vec、Sense2Vec 和 FastText。使用西班牙语维基百科作为语料库使用等效参数训练模型。然后我们使用了一个单词列表及其索引(从我们的新词数据库中获得)来显示每个模型产生的不同嵌入。最后,我们将这些结果与每个词的索引进行比较,以展示我们如何确定一个词是否可以成为 SN 的有效候选者。然后我们使用了一个单词列表及其索引(从我们的新词数据库中获得)来显示每个模型产生的不同嵌入。最后,我们将这些结果与每个词的索引进行比较,以展示我们如何确定一个词是否可以成为 SN 的有效候选者。然后我们使用了一个单词列表及其索引(从我们的新词数据库中获得)来显示每个模型产生的不同嵌入。最后,我们将这些结果与每个词的索引进行比较,以展示我们如何确定一个词是否可以成为 SN 的有效候选者。
更新日期:2020-01-16
down
wechat
bug