当前位置: X-MOL 学术Fluct. Noise Lett. › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
Enhancing Speech Quality Using Artificial Bandwidth Expansion with Deep Shallow Convolution Neural Network Framework
Fluctuation and Noise Letters ( IF 1.2 ) Pub Date : 2021-07-30 , DOI: 10.1142/s0219477522500080
N. Radha 1 , R. B. Jananie 1 , A. Anto Silviya 1
Affiliation  

Speech processing is an important application area of digital signal processing that helps examine and analyze the speech signal. In this processing, speech enhancement is an essential factor because it improves the quality of the signal that helps resolve the communication challenges. Different speech enhancement algorithms are utilized in the research field, but limited processing capabilities, maximum microphone distance, and voice-first I.O. interfaces create the computation complexity. In this paper, speech enhancement is done in two steps. In an initial step, spectral subtraction method is applied to LJ Speech dataset. In the first stage, noise spectrum is estimated during pauses and it is subtracted from the noisy speech signal to obtain the clean speech signal. However, spectral subtraction method still introduces artificial noise and narrow-band noise in the spectrum. Hence, artificial bandwidth expansion with a deep shallow convolution neural network (ABE-DSCNN) is implemented as a second stage in the paper. Further, developed system is compared with conventional enhancement approaches such as deep learning network (DNN), neural beam forming (NB) and generative adversarial network (GAN). The experimental results show that an ABS-DSCNN provides 4% increase of PSEQ and error rate improved by 40% to 56% with respect to the other existing algorithms for 1000 speech samples. Hence, the paper concludes that ABE-DSCNN approach effectively improves the speech quality.

中文翻译:

通过深度浅层卷积神经网络框架使用人工带宽扩展来提高语音质量

语音处理是数字信号处理的一个重要应用领域,有助于检查和分析语音信号。在此处理中,语音增强是一个重要因素,因为它提高了有助于解决通信挑战的信号质量。研究领域使用了不同的语音增强算法,但有限的处理能力、最大的麦克风距离和语音优先的 IO 接口造成了计算复杂性。在本文中,语音增强分两步完成。在初始步骤中,将频谱减法方法应用于 LJ 语音数据集。在第一阶段,在暂停期间估计噪声谱,并从有噪声的语音信号中减去它以获得干净的语音信号。然而,频谱减法仍然在频谱中引入人工噪声和窄带噪声。因此,使用深浅卷积神经网络(ABE-DSCNN)进行人工带宽扩展作为本文的第二阶段实现。此外,将开发的系统与深度学习网络(DNN)、神经束形成(NB)和生成对抗网络(GAN)等传统增强方法进行了比较。实验结果表明,对于 1000 个语音样本,相对于其他现有算法,ABS-DSCNN 提供了 4% 的 PSEQ 增加和错误率提高了 40% 到 56%。因此,本文得出结论,ABE-DSCNN 方法有效地提高了语音质量。使用深浅卷积神经网络 (ABE-DSCNN) 进行人工带宽扩展是本文的第二阶段。此外,将开发的系统与深度学习网络(DNN)、神经束形成(NB)和生成对抗网络(GAN)等传统增强方法进行了比较。实验结果表明,对于 1000 个语音样本,相对于其他现有算法,ABS-DSCNN 提供了 4% 的 PSEQ 增加和错误率提高了 40% 到 56%。因此,本文得出结论,ABE-DSCNN 方法有效地提高了语音质量。使用深浅卷积神经网络 (ABE-DSCNN) 进行人工带宽扩展是本文的第二阶段。此外,将开发的系统与深度学习网络(DNN)、神经束形成(NB)和生成对抗网络(GAN)等传统增强方法进行了比较。实验结果表明,对于 1000 个语音样本,相对于其他现有算法,ABS-DSCNN 提供了 4% 的 PSEQ 增加和错误率提高了 40% 到 56%。因此,本文得出结论,ABE-DSCNN 方法有效地提高了语音质量。实验结果表明,对于 1000 个语音样本,相对于其他现有算法,ABS-DSCNN 提供了 4% 的 PSEQ 增加和错误率提高了 40% 到 56%。因此,本文得出结论,ABE-DSCNN 方法有效地提高了语音质量。实验结果表明,对于 1000 个语音样本,相对于其他现有算法,ABS-DSCNN 提供了 4% 的 PSEQ 增加和错误率提高了 40% 到 56%。因此,本文得出结论,ABE-DSCNN 方法有效地提高了语音质量。
更新日期:2021-07-30
down
wechat
bug