当前位置: X-MOL 学术Complexity › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
SynoExtractor: A Novel Pipeline for Arabic Synonym Extraction Using Word2Vec Word Embeddings
Complexity ( IF 2.3 ) Pub Date : 2021-02-17 , DOI: 10.1155/2021/6627434
Rawan N. Al-Matham 1 , Hend S. Al-Khalifa 1
Affiliation  

Automatic synonym extraction plays an important role in many natural language processing systems, such as those involving information retrieval and question answering. Recently, research has focused on extracting semantic relations from word embeddings since they capture relatedness and similarity between words. However, using word embeddings alone poses problems for synonym extraction because it cannot determine whether the relation between words is synonymy or some other semantic relation. In this paper, we present a novel solution for this problem by proposing the SynoExtractor pipeline, which can be used to filter similar word embeddings to retain synonyms based on specified linguistic rules. Our experiments were conducted using KSUCCA and Gigaword embeddings and trained with CBOW and SG models. We evaluated automatically extracted synonyms by comparing them with Alma’any Arabic synonym thesauri. We also arranged for a manual evaluation by two Arabic linguists. The results of experiments we conducted show that using the SynoExtractor pipeline enhances the precision of synonym extraction compared to using the cosine similarity measure alone. SynoExtractor obtained a 0.605 mean average precision (MAP) for the King Saud University Corpus of Classical Arabic with 21% improvement over the baseline and a 0.748 MAP for the Gigaword corpus with 25% improvement. SynoExtractor outperformed the Sketch Engine thesaurus for synonym extraction by 32% in terms of MAP. Our work shows promising results for synonym extraction suggesting that our method can also be used with other languages.

中文翻译:

SynoExtractor:使用Word2Vec单词嵌入的阿拉伯同义词提取的新管道

自动同义词提取在许多自然语言处理系统(例如涉及信息检索和问题解答的系统)中起着重要作用。最近,研究集中在从词嵌入中提取语义关系,因为它们捕获了词之间的相关性和相似性。但是,单独使用单词嵌入会给同义词提取带来问题,因为它无法确定单词之间的关系是同义词还是其他语义关系。在本文中,我们通过提出SynoExtractor管道提出了针对此问题的新颖解决方案,该管道可用于过滤相似的词嵌入以基于指定的语言规则保留同义词。我们的实验是使用KSUCCA和Gigaword嵌入进行的,并使用CBOW和SG模型进行了训练。我们通过将提取的同义词与Alma'any阿拉伯同义词thesauri进行比较来评估自动提取的同义词。我们还安排了两名阿拉伯语言学家的手动评估。我们进行的实验结果表明,与单独使用余弦相似性度量相比,使用SynoExtractor管道可以提高同义词提取的精度。SynoExtractor的国王沙特大学古典阿拉伯语料库的平均平均精度(MAP)为0.605,比基准值提高了21%,Gigaword语料库的平均平均精度为0.748,提高了25%。SynoExtractor优于Sketch Engine同义词库提取同义词的词库比MAP快32%。我们的工作显示了同义词提取的有希望的结果,表明我们的方法也可以与其他语言一起使用。我们还安排了两名阿拉伯语言学家的手动评估。我们进行的实验结果表明,与单独使用余弦相似性度量相比,使用SynoExtractor管道可以提高同义词提取的精度。SynoExtractor的国王沙特大学古典阿拉伯语料库的平均平均精度(MAP)为0.605,比基准值提高了21%,Gigaword语料库的平均平均精度为0.748,提高了25%。SynoExtractor优于Sketch Engine同义词库提取同义词的词库比MAP快32%。我们的工作显示了同义词提取的有希望的结果,表明我们的方法也可以与其他语言一起使用。我们还安排了两名阿拉伯语言学家的手动评估。我们进行的实验结果表明,与单独使用余弦相似性度量相比,使用SynoExtractor管道可以提高同义词提取的精度。SynoExtractor对于沙特国王大学古典阿拉伯语料库获得了0.605的平均平均精度(MAP),比基线提高了21%,对于Gigaword语料库获得了0.748的平均均值(25)。SynoExtractor优于Sketch Engine同义词库提取同义词的词库比MAP快32%。我们的工作显示了同义词提取的有希望的结果,表明我们的方法也可以与其他语言一起使用。我们进行的实验结果表明,与单独使用余弦相似性度量相比,使用SynoExtractor管道可以提高同义词提取的精度。SynoExtractor的国王沙特大学古典阿拉伯语料库的平均平均精度(MAP)为0.605,比基准值提高了21%,Gigaword语料库的平均平均精度为0.748,提高了25%。SynoExtractor优于Sketch Engine同义词库提取同义词的词库比MAP快32%。我们的工作显示了同义词提取的有希望的结果,表明我们的方法也可以与其他语言一起使用。我们进行的实验结果表明,与单独使用余弦相似性度量相比,使用SynoExtractor管道可以提高同义词提取的精度。SynoExtractor的国王沙特大学古典阿拉伯语料库的平均平均精度(MAP)为0.605,比基准值提高了21%,Gigaword语料库的平均平均精度为0.748,提高了25%。SynoExtractor优于Sketch Engine同义词库提取同义词的词库比MAP快32%。我们的工作显示了同义词提取的有希望的结果,表明我们的方法也可以与其他语言一起使用。Gigaword语料库的748 MAP改善了25%。SynoExtractor优于Sketch Engine同义词库提取同义词的词库比MAP快32%。我们的工作显示了同义词提取的有希望的结果,表明我们的方法也可以与其他语言一起使用。Gigaword语料库的748 MAP改善了25%。SynoExtractor优于Sketch Engine同义词库提取同义词的词库比MAP快32%。我们的工作显示了同义词提取的有希望的结果,表明我们的方法也可以与其他语言一起使用。
更新日期:2021-02-17
down
wechat
bug