当前位置: X-MOL 学术IEEE Trans. Cybern. › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
Multiscale Amplitude Feature and Significance of Enhanced Vocal Tract Information for Emotion Classification
IEEE Transactions on Cybernetics ( IF 11.8 ) Pub Date : 2019-03-01 , DOI: 10.1109/tcyb.2017.2787717
Suman Deb , Samarendra Dandapat

In this paper, a novel multiscale amplitude feature is proposed using multiresolution analysis (MRA) and the significance of the vocal tract is investigated for emotion classification from the speech signal. MRA decomposes the speech signal into number of sub-band signals. The proposed feature is computed by using sinusoidal model on each sub-band signal. Different emotions have different impacts on the vocal tract. As a result, vocal tract responds in a unique way for each emotion. The vocal tract information is enhanced using pre-emphasis. Therefore, emotion information manifested in the vocal tract can be well exploited. This may help in improving the performance of emotion classification. Emotion recognition is performed using German emotional EMODB database, interactive emotional dyadic motion capture database, simulated stressed speech database, and FAU AIBO database with speech signal and speech with enhanced vocal tract information (SEVTI). The performance of the proposed multiscale amplitude feature is compared with three different types of features: 1) the mel frequency cepstral coefficients; 2) the Teager energy operator (TEO)-based feature (TEO-CB-Auto-Env); and 3) the breathinesss feature. The proposed feature outperforms the other features. In terms of recognition rates, the features derived from the SEVTI signal, give better performance compared to the features derived from the speech signal. Combination of the features with SEVTI signal shows average recognition rate of 86.7% using EMODB database.

中文翻译:

情感分类的多尺度幅度特征及其增强的意义

在本文中,使用多分辨率分析(MRA)提出了一种新颖的多尺度幅度特征,并研究了声道对从语音信号进行情感分类的意义。MRA将语音信号分解为多个子带信号。通过在每个子带信号上使用正弦模型来计算所提出的特征。不同的情感对声道有不同的影响。结果,声道对每种情感都有独特的反应方式。使用预加重可以增强声道信息。因此,可以很好地利用在声道中表现出的情绪信息。这可以帮助改善情绪分类的性能。情感识别是使用德国情感EMODB数据库,交互式情感二元运动捕捉数据库,模拟强调语音数据库,以及具有语音信号和增强声道信息的语音的FAU AIBO数据库(SEVTI)。将所提出的多尺度幅度特征的性能与三种不同类型的特征进行比较:1)梅尔频率倒谱系数;2)基于Teager能源运营商(TEO)的功能(TEO-CB-Auto-Env);3)呼吸功能。提出的功能优于其他功能。在识别率方面,与从语音信号得到的特征相比,从SEVTI信号得到的特征具有更好的性能。使用EMODB数据库,特征与SEVTI信号的组合显示出平均识别率为86.7%。将所提出的多尺度幅度特征的性能与三种不同类型的特征进行比较:1)梅尔频率倒谱系数;2)基于Teager能源运营商(TEO)的功能(TEO-CB-Auto-Env);3)呼吸功能。提出的功能优于其他功能。在识别率方面,与从语音信号得到的特征相比,从SEVTI信号得到的特征具有更好的性能。使用EMODB数据库,特征与SEVTI信号的组合显示出平均识别率为86.7%。将所提出的多尺度幅度特征的性能与三种不同类型的特征进行比较:1)梅尔频率倒谱系数;2)基于Teager能源运营商(TEO)的功能(TEO-CB-Auto-Env);3)呼吸功能。提出的功能优于其他功能。在识别率方面,与从语音信号得到的特征相比,从SEVTI信号得到的特征具有更好的性能。使用EMODB数据库,特征与SEVTI信号的组合显示出平均识别率为86.7%。在识别率方面,与从语音信号得到的特征相比,从SEVTI信号得到的特征具有更好的性能。使用EMODB数据库,将特征与SEVTI信号相结合显示出平均识别率为86.7%。在识别率方面,与从语音信号得到的特征相比,从SEVTI信号得到的特征具有更好的性能。使用EMODB数据库,特征与SEVTI信号的组合显示出平均识别率为86.7%。
更新日期:2019-03-01
down
wechat
bug