当前位置: X-MOL 学术IEEE Trans. Cogn. Dev. Syst. › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
Ensemble Hierarchical Extreme Learning Machine for Speech Dereverberation
IEEE Transactions on Cognitive and Developmental Systems ( IF 5 ) Pub Date : 2020-12-01 , DOI: 10.1109/tcds.2019.2953620
Tassadaq Hussain , Sabato Marco Siniscalchi , Hsiao-Lan Sharon Wang , Yu Tsao , Salerno Valerio Mario , Wen-Hung Liao

Data-driven deep learning solutions with gradient-based neural architecture, have proven useful in overcoming some limitations of traditional signal processing techniques. However, a large number of reverberant–anechoic training utterance pairs covering as many environmental conditions as possible is required to achieve robust dereverberation performance in unseen testing conditions. In this article, we propose to address the data requirement issue while preserving the advantages of deep neural structures leveraging upon hierarchical extreme learning machines (HELMs), which are not gradient-based neural architectures. In particular, an ensemble HELM learning framework is established to effectively recover anechoic speech from a reverberant one based on spectral mapping. In addition to the ensemble learning framework, we further derive two novel HELM models, namely, highway HELM [HELM(Hwy)] and residual HELM [HELM(Res)], both incorporating low-level features to enrich the information for spectral mapping. We evaluated the proposed ensemble learning framework using simulated and measured impulse responses by employing Texas Instrument and Massachusetts Institute of Technology (TIMIT), Mandarin hearing in noise test (MHINT), and reverberant voice enhancement and recognition benchmark (REVERB) corpora. The experimental results show that the proposed framework outperforms both traditional methods and a recently proposed integrated deep and ensemble learning algorithm in terms of standardized objective and subjective evaluations under matched and mismatched testing conditions for simulated and measured impulse responses.

中文翻译:

用于语音去混响的集成分层极限学习机

具有基于梯度的神经架构的数据驱动深度学习解决方案已被证明有助于克服传统信号处理技术的一些局限性。然而,需要覆盖尽可能多的环境条件的大量混响-消声训练语音对才能在看不见的测试条件下实现强大的去混响性能。在本文中,我们建议解决数据需求问题,同时保留利用分层极限学习机 (HELM) 的深度神经结构的优势,HELM 不是基于梯度的神经架构。特别是,建立了一个集成 HELM 学习框架,以基于频谱映射从混响语音中有效地恢复无回声语音。除了集成学习框架,我们进一步推导出两个新的 HELM 模型,即高速公路 HELM [HELM(Hwy)] 和残差 HELM [HELM(Res)],两者都结合了低级特征来丰富光谱映射的信息。我们通过使用德州仪器和麻省理工学院 (TIMIT)、普通话噪音测试 (MHINT) 和混响语音增强和识别基准 (REVERB) 语料库,使用模拟和测量的脉冲响应来评估所提出的集成学习框架。实验结果表明,在模拟和测量脉冲响应的匹配和不匹配测试条件下,所提出的框架在标准化客观和主观评估方面优于传统方法和最近提出的集成深度和集成学习算法。高速公路 HELM [HELM(Hwy)] 和残差 HELM [HELM(Res)],两者都结合了低级特征来丰富光谱映射的信息。我们通过使用德州仪器和麻省理工学院 (TIMIT)、普通话噪音测试 (MHINT) 和混响语音增强和识别基准 (REVERB) 语料库,使用模拟和测量的脉冲响应来评估所提出的集成学习框架。实验结果表明,在模拟和测量脉冲响应的匹配和不匹配测试条件下,所提出的框架在标准化客观和主观评估方面优于传统方法和最近提出的集成深度和集成学习算法。高速公路 HELM [HELM(Hwy)] 和残差 HELM [HELM(Res)],两者都结合了低级特征来丰富光谱映射的信息。我们通过使用德州仪器和麻省理工学院 (TIMIT)、普通话噪音测试 (MHINT) 和混响语音增强和识别基准 (REVERB) 语料库,使用模拟和测量的脉冲响应来评估所提出的集成学习框架。实验结果表明,在模拟和测量脉冲响应的匹配和不匹配测试条件下,所提出的框架在标准化客观和主观评估方面优于传统方法和最近提出的集成深度和集成学习算法。两者都结合了低级特征来丰富光谱映射的信息。我们通过使用德州仪器和麻省理工学院 (TIMIT)、普通话噪音测试 (MHINT) 和混响语音增强和识别基准 (REVERB) 语料库,使用模拟和测量的脉冲响应来评估所提出的集成学习框架。实验结果表明,在模拟和测量脉冲响应的匹配和不匹配测试条件下,所提出的框架在标准化客观和主观评估方面优于传统方法和最近提出的集成深度和集成学习算法。两者都结合了低级特征来丰富光谱映射的信息。我们通过使用德州仪器和麻省理工学院 (TIMIT)、普通话噪音测试 (MHINT) 和混响语音增强和识别基准 (REVERB) 语料库,使用模拟和测量的脉冲响应来评估所提出的集成学习框架。实验结果表明,在模拟和测量脉冲响应的匹配和不匹配测试条件下,所提出的框架在标准化客观和主观评估方面优于传统方法和最近提出的集成深度和集成学习算法。我们通过使用德州仪器和麻省理工学院 (TIMIT)、普通话噪音测试 (MHINT) 和混响语音增强和识别基准 (REVERB) 语料库,使用模拟和测量的脉冲响应来评估所提出的集成学习框架。实验结果表明,在模拟和测量脉冲响应的匹配和不匹配测试条件下,所提出的框架在标准化客观和主观评估方面优于传统方法和最近提出的集成深度和集成学习算法。我们通过使用德州仪器和麻省理工学院 (TIMIT)、普通话噪音测试 (MHINT) 和混响语音增强和识别基准 (REVERB) 语料库,使用模拟和测量的脉冲响应来评估所提出的集成学习框架。实验结果表明,在模拟和测量脉冲响应的匹配和不匹配测试条件下,所提出的框架在标准化客观和主观评估方面优于传统方法和最近提出的集成深度和集成学习算法。
更新日期:2020-12-01
down
wechat
bug