当前位置: X-MOL 学术Appl. Acoust. › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
A new pyramidal concatenated CNN approach for environmental sound classification
Applied Acoustics ( IF 3.4 ) Pub Date : 2020-12-01 , DOI: 10.1016/j.apacoust.2020.107520
Fatih Demir , Muammer Turkoglu , Muzaffer Aslan , Abdulkadir Sengur

Abstract Recently, there has been an incremental interest on Environmental Sound Classification (ESC), which is an important topic of the non-speech audio classification task. A novel approach, which is based on deep Convolutional Neural Networks (CNN), is proposed in this study. The proposed approach covers a bunch of stages such as pre-processing, deep learning based feature extraction, feature concatenation, feature reduction and classification, respectively. In the first stage, the input sound signals are denoised and are converted into sound images by using the Sort Time Fourier Transform (STFT) method. After sound images are formed, pre-trained CNN models are used for deep feature extraction. In this stage, VGG16, VGG19 and DenseNet201 models are considered. The feature extraction is performed in a pyramidal fashion which makes the dimension of the feature vector quite large. For both dimension reduction and the determination of the most efficient features, a feature selection mechanism is considered after feature concatenation stage. In the last stage of the proposed method, a Support Vector Machines (SVM) classifier is used. The efficiency of the proposed method is calculated on various ESC datasets such as ESC 10, ESC 50 and UrbanSound8K, respectively. The experimental works show that the proposed method produced 94.8%, 81.4% and 78.14% accuracy scores for ESC-10, ESC-50 and UrbanSound8K datasets. The obtained results are also compared with the state-of-the art methods achievements.

中文翻译:

一种用于环境声音分类的新金字塔连接 CNN 方法

摘要 最近,环境声音分类(ESC)越来越受到关注,这是非语音音频分类任务的一个重要课题。本研究提出了一种基于深度卷积神经网络 (CNN) 的新方法。所提出的方法分别涵盖了一系列阶段,例如预处理、基于深度学习的特征提取、特征连接、特征减少和分类。在第一阶段,对输入的声音信号进行去噪,并使用排序时间傅立叶变换(STFT)方法将其转换为声音图像。声音图像形成后,使用预训练的 CNN 模型进行深度特征提取。在这个阶段,考虑了 VGG16、VGG19 和 DenseNet201 模型。特征提取是以金字塔的方式进行的,这使得特征向量的维度非常大。为了降维和确定最有效的特征,在特征连接阶段之后考虑特征选择机制。在所提出方法的最后阶段,使用了支持向量机 (SVM) 分类器。所提出方法的效率分别在各种 ESC 数据集上计算,例如 ESC 10、ESC 50 和 UrbanSound8K。实验工作表明,所提出的方法对 ESC-10、ESC-50 和 UrbanSound8K 数据集的准确率分别为 94.8%、81.4% 和 78.14%。获得的结果还与最先进的方法成就进行了比较。在特征连接阶段之后考虑特征选择机制。在所提出方法的最后阶段,使用了支持向量机 (SVM) 分类器。所提出方法的效率分别在各种 ESC 数据集上计算,例如 ESC 10、ESC 50 和 UrbanSound8K。实验工作表明,所提出的方法对 ESC-10、ESC-50 和 UrbanSound8K 数据集的准确率分别为 94.8%、81.4% 和 78.14%。获得的结果还与最先进的方法成就进行了比较。在特征连接阶段之后考虑特征选择机制。在所提出方法的最后阶段,使用了支持向量机 (SVM) 分类器。所提出方法的效率分别在各种 ESC 数据集上计算,例如 ESC 10、ESC 50 和 UrbanSound8K。实验工作表明,所提出的方法对 ESC-10、ESC-50 和 UrbanSound8K 数据集的准确率分别为 94.8%、81.4% 和 78.14%。获得的结果还与最先进的方法成就进行了比较。实验工作表明,所提出的方法对 ESC-10、ESC-50 和 UrbanSound8K 数据集的准确率分别为 94.8%、81.4% 和 78.14%。获得的结果还与最先进的方法成就进行了比较。实验工作表明,所提出的方法对 ESC-10、ESC-50 和 UrbanSound8K 数据集的准确率分别为 94.8%、81.4% 和 78.14%。获得的结果还与最先进的方法成就进行了比较。
更新日期:2020-12-01
down
wechat
bug