当前位置: X-MOL 学术arXiv.cs.MM › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
Semantic Object Prediction and Spatial Sound Super-Resolution with Binaural Sounds
arXiv - CS - Multimedia Pub Date : 2020-03-09 , DOI: arxiv-2003.04210
Arun Balajee Vasudevan, Dengxin Dai, Luc Van Gool

Humans can robustly recognize and localize objects by integrating visual and auditory cues. While machines are able to do the same now with images, less work has been done with sounds. This work develops an approach for dense semantic labelling of sound-making objects, purely based on binaural sounds. We propose a novel sensor setup and record a new audio-visual dataset of street scenes with eight professional binaural microphones and a 360 degree camera. The co-existence of visual and audio cues is leveraged for supervision transfer. In particular, we employ a cross-modal distillation framework that consists of a vision `teacher' method and a sound `student' method -- the student method is trained to generate the same results as the teacher method. This way, the auditory system can be trained without using human annotations. We also propose two auxiliary tasks namely, a) a novel task on Spatial Sound Super-resolution to increase the spatial resolution of sounds, and b) dense depth prediction of the scene. We then formulate the three tasks into one end-to-end trainable multi-tasking network aiming to boost the overall performance. Experimental results on the dataset show that 1) our method achieves promising results for semantic prediction and the two auxiliary tasks; and 2) the three tasks are mutually beneficial -- training them together achieves the best performance and 3) the number and orientations of microphones are both important. The data and code will be released to facilitate the research in this new direction.

中文翻译:

双耳声音的语义对象预测和空间声音超分辨率

人类可以通过整合视觉和听觉线索来稳健地识别和定位物体。虽然机器现在能够对图像做同样的事情,但对声音所做的工作却很少。这项工作开发了一种完全基于双耳声音对发声对象进行密集语义标记的方法。我们提出了一种新颖的传感器设置,并使用八个专业双耳麦克风和一个 360 度摄像头记录了街景的新视听数据集。利用视觉和音频线索的共存进行监督转移。特别是,我们采用了跨模态蒸馏框架,该框架由视觉“教师”方法和声音“学生”方法组成——学生方法经过训练以产生与教师方法相同的结果。通过这种方式,可以在不使用人工注释的情况下训练听觉系统。我们还提出了两个辅助任务,即 a) 空间声音超分辨率的新任务,以增加声音的空间分辨率,以及 b) 场景的密集深度预测。然后,我们将这三个任务制定成一个端到端的可训练多任务网络,旨在提高整体性能。在数据集上的实验结果表明:1)我们的方法在语义预测和两个辅助任务方面取得了有希望的结果;2)这三项任务是互利的——一起训练它们可以获得最佳性能,3)麦克风的数量和方向都很重要。将发布数据和代码,以促进这一新方向的研究。b) 场景的密集深度预测。然后,我们将这三个任务制定成一个端到端的可训练多任务网络,旨在提高整体性能。在数据集上的实验结果表明:1)我们的方法在语义预测和两个辅助任务方面取得了有希望的结果;2)这三项任务是互利的——一起训练它们可以获得最佳性能,3)麦克风的数量和方向都很重要。将发布数据和代码,以促进这一新方向的研究。b) 场景的密集深度预测。然后,我们将这三个任务制定成一个端到端的可训练多任务网络,旨在提高整体性能。在数据集上的实验结果表明:1)我们的方法在语义预测和两个辅助任务方面取得了有希望的结果;2)这三项任务是互利的——一起训练它们可以获得最佳性能,3)麦克风的数量和方向都很重要。将发布数据和代码,以促进这一新方向的研究。2)这三项任务是互利的——一起训练它们可以获得最佳性能,3)麦克风的数量和方向都很重要。将发布数据和代码,以促进这一新方向的研究。2)这三项任务是互利的——一起训练它们可以获得最佳性能,3)麦克风的数量和方向都很重要。将发布数据和代码,以促进这一新方向的研究。
更新日期:2020-03-10
down
wechat
bug