当前位置: X-MOL 学术Expert Syst. › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
Learning from mistakes: Improving spelling correction performance with automatic generation of realistic misspellings
Expert Systems ( IF 3.3 ) Pub Date : 2021-03-17 , DOI: 10.1111/exsy.12692
Osman Büyük 1 , Levent M. Arslan 2, 3
Affiliation  

Sequence to sequence models (seq2seq) require a large amount of labelled training data to learn the mapping between the input and output. A large set of misspelled words together with their corrections is needed to train a seq2seq spelling correction system. Low-resource languages such as Turkish usually lack such large annotated datasets. Although misspelling-reference pairs can be synthesized with a random procedure, the generated dataset may not well match to genuine human-made misspellings. This might degrade the performance in realistic test scenarios. In this paper, we propose a novel procedure to automatically introduce human-like misspellings to legitimate words in Turkish language. Generated human-like misspellings are used to improve the performance of a seq2seq spelling correction system. The proposed system consists of two separate models; a misspelling generator and a spelling corrector. The generator is trained using a relatively small number of human-made misspellings and their manual corrections. Reference words and their misspellings are used as inputs and outputs of the generator, respectively. As a result, it is trained to add realistic spelling errors to the valid words. Training data of the spelling corrector is augmented by the generator's human-like misspellings. In the experiments, we observe that the data augmentation significantly improves the spelling correction performance. Our proposed method yields 5% absolute improvement over the state-of-the-art Turkish spelling correction systems in a test set which contains human-made misspellings from Twitter messages.

中文翻译:

从错误中学习:通过自动生成逼真的拼写错误提高拼写纠正性能

序列到序列模型(seq2seq)需要大量标记的训练数据来学习输入和输出之间的映射。需要大量拼写错误的单词及其更正来训练 seq2seq 拼写更正系统。土耳其语等低资源语言通常缺乏如此大的带注释的数据集。尽管可以通过随机程序合成拼写错误参考对,但生成的数据集可能无法与真正的人为拼写错误匹配。这可能会降低实际测试场景中的性能。在本文中,我们提出了一种新颖的程序,可以自动将类似人类的拼写错误引入土耳其语中的合法单词。生成的类人拼写错误用于提高 seq2seq 拼写校正系统的性能。提议的系统由两个独立的模型组成;拼写错误生成器和拼写校正器。生成器使用相对较少的人为拼写错误及其手动更正进行训练。参考词及其拼写错误分别用作生成器的输入和输出。因此,它被训练为将真实的拼写错误添加到有效单词中。拼写校正器的训练数据通过生成器的类似人类的拼写错误得到增强。在实验中,我们观察到数据增强显着提高了拼写纠正性能。我们提出的方法在包含来自 Twitter 消息的人为拼写错误的测试集中比最先进的土耳其语拼写校正系统产生了 5% 的绝对改进。生成器使用相对较少的人为拼写错误及其手动更正进行训练。参考词及其拼写错误分别用作生成器的输入和输出。因此,它被训练为将真实的拼写错误添加到有效单词中。拼写校正器的训练数据通过生成器的类人拼写错误得到增强。在实验中,我们观察到数据增强显着提高了拼写纠正性能。我们提出的方法在包含来自 Twitter 消息的人为拼写错误的测试集中比最先进的土耳其语拼写校正系统产生了 5% 的绝对改进。生成器使用相对较少的人为拼写错误及其手动更正进行训练。参考词及其拼写错误分别用作生成器的输入和输出。结果,它被训练为向有效单词添加真实的拼写错误。拼写校正器的训练数据通过生成器的类人拼写错误得到增强。在实验中,我们观察到数据增强显着提高了拼写纠正性能。我们提出的方法在包含来自 Twitter 消息的人为拼写错误的测试集中比最先进的土耳其语拼写校正系统产生了 5% 的绝对改进。参考词及其拼写错误分别用作生成器的输入和输出。结果,它被训练为向有效单词添加真实的拼写错误。拼写校正器的训练数据通过生成器的类似人类的拼写错误得到增强。在实验中,我们观察到数据增强显着提高了拼写纠正性能。我们提出的方法在包含来自 Twitter 消息的人为拼写错误的测试集中比最先进的土耳其语拼写校正系统产生了 5% 的绝对改进。参考词及其拼写错误分别用作生成器的输入和输出。因此,它被训练为将真实的拼写错误添加到有效单词中。拼写校正器的训练数据通过生成器的类人拼写错误得到增强。在实验中,我们观察到数据增强显着提高了拼写纠正性能。我们提出的方法在包含来自 Twitter 消息的人为拼写错误的测试集中比最先进的土耳其语拼写校正系统产生了 5% 的绝对改进。我们观察到数据增强显着提高了拼写纠正性能。我们提出的方法在包含来自 Twitter 消息的人为拼写错误的测试集中比最先进的土耳其语拼写校正系统产生了 5% 的绝对改进。我们观察到数据增强显着提高了拼写纠正性能。我们提出的方法在包含来自 Twitter 消息的人为拼写错误的测试集中比最先进的土耳其语拼写校正系统产生了 5% 的绝对改进。
更新日期:2021-03-17
down
wechat
bug