当前位置:
X-MOL 学术
›
arXiv.cs.SD
›
论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
A Comparison of Methods for OOV-word Recognition on a New Public Dataset
arXiv - CS - Sound Pub Date : 2021-07-16 , DOI: arxiv-2107.08091 Rudolf A. Braun, Srikanth Madikeri, Petr Motlicek
arXiv - CS - Sound Pub Date : 2021-07-16 , DOI: arxiv-2107.08091 Rudolf A. Braun, Srikanth Madikeri, Petr Motlicek
A common problem for automatic speech recognition systems is how to recognize
words that they did not see during training. Currently there is no established
method of evaluating different techniques for tackling this problem. We propose
using the CommonVoice dataset to create test sets for multiple languages which
have a high out-of-vocabulary (OOV) ratio relative to a training set and
release a new tool for calculating relevant performance metrics. We then
evaluate, within the context of a hybrid ASR system, how much better subword
models are at recognizing OOVs, and how much benefit one can get from
incorporating OOV-word information into an existing system by modifying WFSTs.
Additionally, we propose a new method for modifying a subword-based language
model so as to better recognize OOV-words. We showcase very large improvements
in OOV-word recognition and make both the data and code available.
中文翻译:
新公共数据集上OOV词识别方法的比较
自动语音识别系统的一个常见问题是如何识别他们在训练期间没有看到的单词。目前还没有确定的方法来评估解决这个问题的不同技术。我们建议使用 CommonVoice 数据集为多种语言创建测试集,这些语言相对于训练集具有较高的词汇外 (OOV) 比率,并发布用于计算相关性能指标的新工具。然后,我们在混合 ASR 系统的上下文中评估子词模型在识别 OOV 方面有多好,以及通过修改 WFST 将 OOV 词信息合并到现有系统中可以获得多少好处。此外,我们提出了一种修改基于子词的语言模型的新方法,以便更好地识别 OOV 词。
更新日期:2021-07-20
中文翻译:
新公共数据集上OOV词识别方法的比较
自动语音识别系统的一个常见问题是如何识别他们在训练期间没有看到的单词。目前还没有确定的方法来评估解决这个问题的不同技术。我们建议使用 CommonVoice 数据集为多种语言创建测试集,这些语言相对于训练集具有较高的词汇外 (OOV) 比率,并发布用于计算相关性能指标的新工具。然后,我们在混合 ASR 系统的上下文中评估子词模型在识别 OOV 方面有多好,以及通过修改 WFST 将 OOV 词信息合并到现有系统中可以获得多少好处。此外,我们提出了一种修改基于子词的语言模型的新方法,以便更好地识别 OOV 词。