当前位置: X-MOL 学术arXiv.cs.SD › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
CURE Dataset: Ladder Networks for Audio Event Classification
arXiv - CS - Sound Pub Date : 2020-01-12 , DOI: arxiv-2001.03896
Harishchandra Dubey, Dimitra Emmanouilidou, Ivan J. Tashev

Audio event classification is an important task for several applications such as surveillance, audio, video and multimedia retrieval etc. There are approximately 3M people with hearing loss who can't perceive events happening around them. This paper establishes the CURE dataset which contains curated set of specific audio events most relevant for people with hearing loss. We propose a ladder network based audio event classifier that utilizes 5s sound recordings derived from the Freesound project. We adopted the state-of-the-art convolutional neural network (CNN) embeddings as audio features for this task. We also investigate extreme learning machine (ELM) for event classification. In this study, proposed classifiers are compared with support vector machine (SVM) baseline. We propose signal and feature normalization that aims to reduce the mismatch between different recordings scenarios. Firstly, CNN is trained on weakly labeled Audioset data. Next, the pre-trained model is adopted as feature extractor for proposed CURE corpus. We incorporate ESC-50 dataset as second evaluation set. Results and discussions validate the superiority of Ladder network over ELM and SVM classifier in terms of robustness and increased classification accuracy. While Ladder network is robust to data mismatches, simpler SVM and ELM classifiers are sensitive to such mismatches, where the proposed normalization techniques can play an important role. Experimental studies with ESC-50 and CURE corpora elucidate the differences in dataset complexity and robustness offered by proposed approaches.

中文翻译:

CURE 数据集:用于音频事件分类的梯形网络

音频事件分类是监控、音频、视频和多媒体检索等多种应用的重要任务。大约有 300 万听力损失者无法感知周围发生的事件。本文建立了 CURE 数据集,其中包含与听力损失人士最相关的特定音频事件的精选集。我们提出了一个基于阶梯网络的音频事件分类器,它利用了来自 Freesound 项目的 5s 录音。我们采用最先进的卷积神经网络 (CNN) 嵌入作为此任务的音频特征。我们还研究了用于事件分类的极限学习机 (ELM)。在这项研究中,建议的分类器与支持向量机 (SVM) 基线进行了比较。我们提出信号和特征归一化,旨在减少不同记录场景之间的不匹配。首先,CNN 在弱标记的 Audioset 数据上进行训练。接下来,采用预训练模型作为提出的 CURE 语料库的特征提取器。我们将 ESC-50 数据集作为第二个评估集。结果和讨论验证了梯形网络在鲁棒性和提高分类精度方面优于 ELM 和 SVM 分类器。虽然梯形网络对数据不匹配具有鲁棒性,但更简单的 SVM 和 ELM 分类器对这种不匹配很敏感,其中提出的归一化技术可以发挥重要作用。使用 ESC-50 和 CURE 语料库进行的实验研究阐明了所提出方法在数据集复杂性和稳健性方面的差异。首先,CNN 在弱标记的 Audioset 数据上进行训练。接下来,采用预训练模型作为提出的 CURE 语料库的特征提取器。我们将 ESC-50 数据集作为第二个评估集。结果和讨论验证了梯形网络在鲁棒性和提高分类精度方面优于 ELM 和 SVM 分类器。虽然梯形网络对数据不匹配具有鲁棒性,但更简单的 SVM 和 ELM 分类器对这种不匹配很敏感,其中提出的归一化技术可以发挥重要作用。使用 ESC-50 和 CURE 语料库进行的实验研究阐明了所提出方法在数据集复杂性和稳健性方面的差异。首先,CNN 在弱标记的 Audioset 数据上进行训练。接下来,采用预训练模型作为提出的 CURE 语料库的特征提取器。我们将 ESC-50 数据集作为第二个评估集。结果和讨论验证了梯形网络在鲁棒性和提高分类精度方面优于 ELM 和 SVM 分类器。虽然梯形网络对数据不匹配具有鲁棒性,但更简单的 SVM 和 ELM 分类器对这种不匹配很敏感,其中提出的归一化技术可以发挥重要作用。使用 ESC-50 和 CURE 语料库进行的实验研究阐明了所提出方法在数据集复杂性和稳健性方面的差异。我们将 ESC-50 数据集作为第二个评估集。结果和讨论验证了梯形网络在鲁棒性和提高分类精度方面优于 ELM 和 SVM 分类器。虽然梯形网络对数据不匹配具有鲁棒性,但更简单的 SVM 和 ELM 分类器对这种不匹配很敏感,其中提出的归一化技术可以发挥重要作用。使用 ESC-50 和 CURE 语料库进行的实验研究阐明了所提出方法在数据集复杂性和稳健性方面的差异。我们将 ESC-50 数据集作为第二个评估集。结果和讨论验证了梯形网络在鲁棒性和提高分类精度方面优于 ELM 和 SVM 分类器。虽然梯形网络对数据不匹配具有鲁棒性,但更简单的 SVM 和 ELM 分类器对这种不匹配很敏感,其中提出的归一化技术可以发挥重要作用。使用 ESC-50 和 CURE 语料库进行的实验研究阐明了所提出方法在数据集复杂性和稳健性方面的差异。其中提出的归一化技术可以发挥重要作用。使用 ESC-50 和 CURE 语料库进行的实验研究阐明了所提出方法在数据集复杂性和稳健性方面的差异。其中提出的归一化技术可以发挥重要作用。使用 ESC-50 和 CURE 语料库进行的实验研究阐明了所提出方法在数据集复杂性和稳健性方面的差异。
更新日期:2020-01-14
down
wechat
bug