Sound event aware environmental sound segmentation with Mask U-Net,Advanced Robotics

当前位置： X-MOL 学术 › Adv. Robot. › 论文详情

Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)

Sound event aware environmental sound segmentation with Mask U-Net
Advanced Robotics ( IF 1.4 ) Pub Date : 2020-10-05 , DOI: 10.1080/01691864.2020.1829040
Y. Sudo ₁ , K. Itoyama ₁ , K. Nishida ₁ , K. Nakadai _{1,

2}

Affiliation

This paper proposes an environmental sound segmentation method using Mask U-Net. In recent years, human–robot interactions, especially speech dialogue, have been assessed by auditory scene analysis. Methods, such as noise reduction, section detection, and sound source separation have been proposed for robot audition, acoustic signal processing, and machine learning. However, such conventional approaches have three drawbacks: (1) Many studies have analyzed individual functions, which are regarded as being a cascade. Cascade systems can, however, result in the accumulation of errors generated at each functional block. (2) Unlike conventional cascade systems, deep learning-based methods that simultaneously detect sections, separate sound sources, and identify classes have also been proposed for speech separation. These techniques can be extended for multiple classes of environmental sounds, but their performance becomes degraded with large variations in sound event lengths among classes. (3) In addition, these methods have recurrent neural network layers making it difficult to process calculations in parallel. This paper proposes an environmental sound segmentation method called Mask U-Net, which robustly differentiates sound event lengths among classes. Simulation experiments using a developed 75-class environmental sound data set showed that the proposed method was faster than conventional methods and showed high segmentation performance. GRAPHICAL ABSTRACT

中文翻译：

使用 Mask U-Net 进行声音事件感知环境声音分割

本文提出了一种使用Mask U-Net的环境声音分割方法。近年来，人机交互，尤其是语音对话，已通过听觉场景分析进行评估。已经提出了诸如降噪、截面检测和声源分离等方法用于机器人试听、声学信号处理和机器学习。然而，这种传统方法存在三个缺点：（1）许多研究分析了单个功能，这些功能被认为是级联的。然而，级联系统会导致每个功能块产生的错误累积。(2) 与传统的级联系统不同，基于深度学习的同时检测部分、分离声源和识别类别的方法也被提出用于语音分离。这些技术可以扩展到多个类别的环境声音，但它们的性能会随着类别之间声音事件长度的巨大变化而降低。(3) 此外，这些方法具有循环神经网络层，因此难以并行处理计算。本文提出了一种称为 Mask U-Net 的环境声音分割方法，它可以稳健地区分类别之间的声音事件长度。使用开发的 75 类环境声音数据集进行的仿真实验表明，所提出的方法比传统方法更快，并显示出较高的分割性能。图形概要这些方法具有循环神经网络层，因此难以并行处理计算。本文提出了一种称为 Mask U-Net 的环境声音分割方法，它可以稳健地区分类别之间的声音事件长度。使用开发的 75 类环境声音数据集进行的仿真实验表明，所提出的方法比传统方法更快，并显示出较高的分割性能。图形概要这些方法具有循环神经网络层，因此难以并行处理计算。本文提出了一种称为 Mask U-Net 的环境声音分割方法，它可以稳健地区分类别之间的声音事件长度。使用开发的 75 类环境声音数据集进行的仿真实验表明，所提出的方法比传统方法更快，并显示出较高的分割性能。图形概要使用开发的 75 类环境声音数据集进行的仿真实验表明，所提出的方法比传统方法更快，并显示出较高的分割性能。图形概要使用开发的 75 类环境声音数据集进行的仿真实验表明，所提出的方法比传统方法更快，并显示出较高的分割性能。图形概要

更新日期：2020-10-05

点击分享查看原文

点击收藏

阅读更多本刊最新论文本刊介绍/投稿指南11