当前位置: X-MOL 学术EURASIP J. Audio Speech Music Proc. › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
Comparison of semi-supervised deep learning algorithms for audio classification
EURASIP Journal on Audio, Speech, and Music Processing ( IF 2.4 ) Pub Date : 2022-09-19 , DOI: 10.1186/s13636-022-00255-6
Léo Cances , Etienne Labbé , Thomas Pellegrini

In this article, we adapted five recent SSL methods to the task of audio classification. The first two methods, namely Deep Co-Training (DCT) and Mean Teacher (MT), involve two collaborative neural networks. The three other algorithms, called MixMatch (MM), ReMixMatch (RMM), and FixMatch (FM), are single-model methods that rely primarily on data augmentation strategies. Using the Wide-ResNet-28-2 architecture in all our experiments, 10% of labeled data and the remaining 90% as unlabeled data for training, we first compare the error rates of the five methods on three standard benchmark audio datasets: Environmental Sound Classification (ESC-10), UrbanSound8K (UBS8K), and Google Speech Commands (GSC). In all but one cases, MM, RMM, and FM outperformed MT and DCT significantly, MM and RMM being the best methods in most experiments. On UBS8K and GSC, MM achieved 18.02% and 3.25% error rate (ER), respectively, outperforming models trained with 100% of the available labeled data, which reached 23.29% and 4.94%, respectively. RMM achieved the best results on ESC-10 (12.00% ER), followed by FM which reached 13.33%. Second, we explored adding the mixup augmentation, used in MM and RMM, to DCT, MT, and FM. In almost all cases, mixup brought consistent gains. For instance, on GSC, FM reached 4.44% and 3.31% ER without and with mixup. Our PyTorch code will be made available upon paper acceptance at https://github.com/Labbeti/SSLH .

中文翻译:

音频分类的半监督深度学习算法比较

在本文中,我们采用了五种最近的 SSL 方法来完成音频分类任务。前两种方法,即深度协同训练 (DCT) 和平均教师 (MT),涉及两个协作神经网络。其他三种算法,称为 MixMatch (MM)、ReMixMatch (RMM) 和 FixMatch (FM),是主要依赖于数据增强策略的单模型方法。在我们所有的实验中使用 Wide-ResNet-28-2 架构,10% 的标记数据和剩余的 90% 作为未标记数据进行训练,我们首先在三个标准基准音频数据集上比较了五种方法的错误率:环境声音分类 (ESC-10)、UrbanSound8K (UBS8K) 和 Google 语音命令 (GSC)。除一种情况外,MM、RMM 和 FM 均显着优于 MT 和 DCT,MM 和 RMM 是大多数实验中最好的方法。在 UBS8K 和 GSC 上,MM 分别实现了 18.02% 和 3.25% 的错误率 (ER),优于使用 100% 可用标记数据训练的模型,分别达到 23.29% 和 4.94%。RMM 在 ESC-10 (12.00% ER) 上取得了最好的结果,其次是 FM,达到 13.33%。其次,我们探索了将 MM 和 RMM 中使用的混合增强添加到 DCT、MT 和 FM。在几乎所有情况下,mixup 都带来了一致的收益。例如,在 GSC 上,FM 达到了 4.44% 和 3.31% 的 ER,没有和有混合。我们的 PyTorch 代码将在 https://github.com/Labbeti/SSLH 接受论文后提供。我们探索了将 MM 和 RMM 中使用的混合增强添加到 DCT、MT 和 FM。在几乎所有情况下,mixup 都带来了一致的收益。例如,在 GSC 上,FM 达到了 4.44% 和 3.31% 的 ER,没有和有混合。我们的 PyTorch 代码将在 https://github.com/Labbeti/SSLH 接受论文后提供。我们探索了将 MM 和 RMM 中使用的混合增强添加到 DCT、MT 和 FM。在几乎所有情况下,mixup 都带来了一致的收益。例如,在 GSC 上,FM 达到了 4.44% 和 3.31% 的 ER,没有和有混合。我们的 PyTorch 代码将在 https://github.com/Labbeti/SSLH 接受论文后提供。
更新日期:2022-09-19
down
wechat
bug