当前位置: X-MOL 学术IEEE ACM Trans. Audio Speech Lang. Process. › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
Improving Robustness of Deep Neural Network Acoustic Models via Speech Separation and Joint Adaptive Training.
IEEE/ACM Transactions on Audio, Speech, and Language Processing ( IF 5.4 ) Pub Date : 2015-01-01 , DOI: 10.1109/taslp.2014.2372314
Arun Narayanan 1 , DeLiang Wang 2
Affiliation  

Although deep neural network (DNN) acoustic models are known to be inherently noise robust, especially with matched training and testing data, the use of speech separation as a frontend and for deriving alternative feature representations has been shown to improve performance in challenging environments. We first present a supervised speech separation system that significantly improves automatic speech recognition (ASR) performance in realistic noise conditions. The system performs separation via ratio time-frequency masking; the ideal ratio mask (IRM) is estimated using DNNs. We then propose a framework that unifies separation and acoustic modeling via joint adaptive training. Since the modules for acoustic modeling and speech separation are implemented using DNNs, unification is done by introducing additional hidden layers with fixed weights and appropriate network architecture. On the CHiME-2 medium-large vocabulary ASR task, and with log mel spectral features as input to the acoustic model, an independently trained ratio masking frontend improves word error rates by 10.9% (relative) compared to the noisy baseline. In comparison, the jointly trained system improves performance by 14.4%. We also experiment with alternative feature representations to augment the standard log mel features, like the noise and speech estimates obtained from the separation module, and the standard feature set used for IRM estimation. Our best system obtains a word error rate of 15.4% (absolute), an improvement of 4.6 percentage points over the next best result on this corpus.

中文翻译:

通过语音分离和联合自适应训练提高深度神经网络声学模型的鲁棒性。

尽管众所周知,深层神经网络(DNN)声学模型具有固有的噪声鲁棒性,尤其是在具有匹配的训练和测试数据的情况下,但已证明使用语音分离作为前端并派生替代特征表示可提高在挑战性环境中的性能。我们首先提出一种受监督的语音分离系统,该系统可以在现实的噪声条件下显着提高自动语音识别(ASR)性能。该系统通过比率时频掩蔽进行分离。理想比率掩码(IRM)是使用DNN估算的。然后,我们提出了一个框架,该框架通过联合自适应训练来统一分离和声学建模。由于用于声学建模和语音分离的模块是使用DNN来实现的,通过引入具有固定权重和适当网络架构的其他隐藏层来实现统一。在CHiME-2中型词汇ASR任务上,并将log mel频谱特征作为声学模型的输入,与噪声基线相比,独立训练的比率掩盖前端可将单词错误率提高10.9%(相对)。相比之下,共同训练的系统将性能提高了14.4%。我们还尝试使用替代特征表示法来增强标准log mel特征,例如从分离模块获得的噪声和语音估计,以及用于IRM估计的标准特征集。我们最好的系统获得了15.4%(绝对值)的单词错误率,比该语料库的次优结果提高了4.6个百分点。在CHiME-2中型词汇ASR任务上,并将log mel频谱特征作为声学模型的输入,与噪声基线相比,独立训练的比率掩盖前端可将单词错误率提高10.9%(相对)。相比之下,共同训练的系统将性能提高了14.4%。我们还尝试使用替代特征表示法来增强标准log mel特征,例如从分离模块获得的噪声和语音估计,以及用于IRM估计的标准特征集。我们最好的系统获得了15.4%(绝对值)的单词错误率,比该语料库的次优结果提高了4.6个百分点。在CHiME-2中型词汇ASR任务上,并将log mel频谱特征作为声学模型的输入,与噪声基线相比,独立训练的比率掩盖前端可将单词错误率提高10.9%(相对)。相比之下,共同训练的系统将性能提高了14.4%。我们还尝试使用替代特征表示法来增强标准log mel特征,例如从分离模块获得的噪声和语音估计,以及用于IRM估计的标准特征集。我们最好的系统获得了15.4%(绝对值)的单词错误率,比该语料库的次优结果提高了4.6个百分点。与嘈杂的基线相比,独立训练的比率掩盖前端可将字错误率提高10.9%(相对)。相比之下,共同训练的系统将性能提高了14.4%。我们还尝试使用替代特征表示法来增强标准log mel特征,例如从分离模块获得的噪声和语音估计,以及用于IRM估计的标准特征集。我们最好的系统获得了15.4%(绝对值)的单词错误率,比该语料库的次优结果提高了4.6个百分点。与嘈杂的基准相比,独立训练的比率掩盖前端可将字错误率提高10.9%(相对)。相比之下,共同训练的系统将性能提高了14.4%。我们还尝试使用替代特征表示法来增强标准log mel特征,例如从分离模块获得的噪声和语音估计,以及用于IRM估计的标准特征集。我们最好的系统获得了15.4%(绝对值)的单词错误率,比该语料库的次优结果提高了4.6个百分点。例如从分离模块获得的噪声和语音估计,以及用于IRM估计的标准功能集。我们最好的系统获得了15.4%(绝对值)的单词错误率,比该语料库的次优结果提高了4.6个百分点。例如从分离模块获得的噪声和语音估计,以及用于IRM估计的标准功能集。我们最好的系统获得了15.4%(绝对值)的单词错误率,比该语料库的次优结果提高了4.6个百分点。
更新日期:2019-11-01
down
wechat
bug