当前位置: X-MOL 学术Int. J. Commun. Syst. › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
Isolated word language identification system with hybrid features from a deep belief network
International Journal of Communication Systems ( IF 1.7 ) Pub Date : 2020-04-26 , DOI: 10.1002/dac.4418
Pardeep Sangwan 1 , Deepti Deshwal 1, 2 , Divya Kumar 2 , Saurabh Bhardwaj 3, 4
Affiliation  

The representation of good audio features is the first and foremost requirement for improving the identification performance of any system. Most of the representation learning approaches are based on connectionist systems to learn and extract latent features from the speech data. This research work presents a hybrid feature extraction approach to integrate Mel-Frequency Cepstral Coefficients (MFCC) features with Shifted Delta Cepstral (SDC) coefficients features, which are further stacked to Deep Belief Network (DBN), for yielding new feature representations of the speech signals. DBN is utilized for unsupervised feature learning on the extracted MFCC-SDC acoustic features. A 3-layer Back Propagation Neural Network (BPNN) classifier is initialized in terms of the learning outcomes of hidden layers of DBN for identifying language from the uttered speech. The efficiency of the proposed approach is evaluated by simulating several experimental algorithms on the user-defined database of isolated words in four languages, namely, Tamil, Malayalam, Hindi, and English, in the working platform of MATLAB. The obtained results for the proposed hybrid approach MFCC-SDC-DBN are promising. The proposed approach is also compared with the baseline feature extraction approach MFCC-SDC by utilizing traditional acoustic features and BPNN classifier. The accuracy obtained with our proposed approach is 98.1% whereas that of the baseline approach is 82%, thereby providing an overall improvement of 16.1%.

中文翻译:

来自深度信念网络的具有混合特征的孤立词语言识别系统

良好的音频特征的表示是提高任何系统的识别性能的首要要求。大多数表示学习方法都基于联结主义系统来学习并从语音数据中提取潜在特征。这项研究工作提出了一种混合特征提取方法,将梅尔频率倒谱系数(MFCC)特征与移位德尔塔倒谱(SDC)系数特征相集成,并进一步堆叠到深度置信网络(DBN),以产生语音的新特征表示信号。DBN 用于对提取的 MFCC-SDC 声学特征进行无监督特征学习。3 层反向传播神经网络 (BPNN) 分类器根据 DBN 隐藏层的学习结果进行初始化,用于从说出的语音中识别语言。通过在 MATLAB 工作平台上对泰米尔语、马拉雅拉姆语、印地语和英语四种语言的用户自定义孤立词数据库进行多种实验算法的模拟,评估了该方法的效率。所提出的混合方法 MFCC-SDC-DBN 所获得的结果是有希望的。该方法还与利用传统声学特征和 BPNN 分类器的基线特征提取方法 MFCC-SDC 进行了比较。我们提出的方法获得的准确率为 98.1%,而基线方法的准确率为 82%,从而总体提高了 16.1%。通过在 MATLAB 工作平台上对泰米尔语、马拉雅拉姆语、印地语和英语四种语言的用户自定义孤立词数据库进行多种实验算法的模拟,评估了该方法的效率。所提出的混合方法 MFCC-SDC-DBN 所获得的结果是有希望的。该方法还与利用传统声学特征和 BPNN 分类器的基线特征提取方法 MFCC-SDC 进行了比较。我们提出的方法获得的准确率为 98.1%,而基线方法的准确率为 82%,从而总体提高了 16.1%。通过在 MATLAB 工作平台上对泰米尔语、马拉雅拉姆语、印地语和英语四种语言的用户自定义孤立词数据库进行多种实验算法的模拟,评估了该方法的效率。所提出的混合方法 MFCC-SDC-DBN 所获得的结果是有希望的。该方法还与利用传统声学特征和 BPNN 分类器的基线特征提取方法 MFCC-SDC 进行了比较。我们提出的方法获得的准确率为 98.1%,而基线方法的准确率为 82%,从而总体提高了 16.1%。所提出的混合方法 MFCC-SDC-DBN 所获得的结果是有希望的。该方法还与利用传统声学特征和 BPNN 分类器的基线特征提取方法 MFCC-SDC 进行了比较。我们提出的方法获得的准确率为 98.1%,而基线方法的准确率为 82%,从而总体提高了 16.1%。所提出的混合方法 MFCC-SDC-DBN 所获得的结果是有希望的。该方法还与利用传统声学特征和 BPNN 分类器的基线特征提取方法 MFCC-SDC 进行了比较。我们提出的方法获得的准确率为 98.1%,而基线方法的准确率为 82%,从而总体提高了 16.1%。
更新日期:2020-04-26
down
wechat
bug