Aerial scene understanding in the wild: Multi-scene recognition via prototype-based memory networks,ISPRS Journal of Photogrammetry and Remote Sensing

当前位置： X-MOL 学术 › ISPRS J. Photogramm. Remote Sens. › 论文详情

Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)

Aerial scene understanding in the wild: Multi-scene recognition via prototype-based memory networks
ISPRS Journal of Photogrammetry and Remote Sensing ( IF 12.7 ) Pub Date : 2021-05-16 , DOI: 10.1016/j.isprsjprs.2021.04.006
Yuansheng Hua _{1,

2} , Lichao Mou _{1,

2} , Jianzhe Lin ₃ , Konrad Heidler _{1,

2} , Xiao Xiang Zhu _{1,

2}

Affiliation

Aerial scene recognition is a fundamental visual task and has attracted an increasing research interest in the last few years. Most of current researches mainly deploy efforts to categorize an aerial image into one scene-level label, while in real-world scenarios, there often exist multiple scenes in a single image. Therefore, in this paper, we propose to take a step forward to a more practical and challenging task, namely multi-scene recognition in single images. Moreover, we note that manually yielding annotations for such a task is extraordinarily time- and labor-consuming. To address this, we propose a prototype-based memory network to recognize multiple scenes in a single image by leveraging massive well-annotated single-scene images. The proposed network consists of three key components: 1) a prototype learning module, 2) a prototype-inhabiting external memory, and 3) a multi-head attention-based memory retrieval module. To be more specific, we first learn the prototype representation of each aerial scene from single-scene aerial image datasets and store it in an external memory. Afterwards, a multi-head attention-based memory retrieval module is devised to retrieve scene prototypes relevant to query multi-scene images for final predictions. Notably, only a limited number of annotated multi-scene images are needed in the training phase. To facilitate the progress of aerial scene recognition, we produce a new multi-scene aerial image (MAI) dataset. Experimental results on variant dataset configurations demonstrate the effectiveness of our network. Our dataset and codes are publicly available¹.

中文翻译：

空中空中场景理解：通过基于原型的存储网络进行多场景识别

空中场景识别是一项基本的视觉任务，并且在最近几年中吸引了越来越多的研究兴趣。当前大多数研究主要是将航拍图像分类为一个场景级标签，而在现实世界中，单个图像中通常存在多个场景。因此，在本文中，我们建议向更实际和更具挑战性的任务迈出一步，即在单个图像中进行多场景识别。此外，我们注意到，手动生成此类任务的注释非常耗时且费力。为了解决这个问题，我们提出了一个基于原型的存储网络，以通过利用批注明确的大量单场景图像来识别单个图像中的多个场景。拟议的网络包括三个关键组件：1）原型学习模块，2）驻留原型的外部存储器，以及3）基于多头注意力的存储器检索模块。更具体地说，我们首先从单场景航拍图像数据集中学习每个航拍场景的原型表示并将其存储在外部存储器中。之后，设计了一个基于多头注意力的内存检索模块，以检索与查询多场景图像有关的场景原型以进行最终预测。值得注意的是，在训练阶段仅需要有限数量的带注释的多场景图像。为了促进空中场景识别的进展，我们产生了一个新的多场景空中图像（MAI）数据集。关于变量数据集配置的实验结果证明了我们网络的有效性。我们的数据集和代码是公开可用的 3）基于多头注意力的记忆检索模块。更具体地说，我们首先从单场景航拍图像数据集中学习每个航拍场景的原型表示并将其存储在外部存储器中。之后，设计了一个基于多头注意力的内存检索模块，以检索与查询多场景图像有关的场景原型以进行最终预测。值得注意的是，在训练阶段仅需要有限数量的带注释的多场景图像。为了促进空中场景识别的进展，我们产生了一个新的多场景空中图像（MAI）数据集。关于变量数据集配置的实验结果证明了我们网络的有效性。我们的数据集和代码是公开可用的 3）基于多头注意力的记忆检索模块。更具体地说，我们首先从单场景航拍图像数据集中学习每个航拍场景的原型表示并将其存储在外部存储器中。之后，设计了一个基于多头注意力的内存检索模块，以检索与查询多场景图像有关的场景原型以进行最终预测。值得注意的是，在训练阶段仅需要有限数量的带注释的多场景图像。为了促进空中场景识别的进展，我们产生了一个新的多场景空中图像（MAI）数据集。关于变量数据集配置的实验结果证明了我们网络的有效性。我们的数据集和代码是公开可用的我们首先从单场景航拍图像数据集中学习每个航拍场景的原型表示并将其存储在外部存储器中。之后，设计了一个基于多头注意力的内存检索模块，以检索与查询多场景图像有关的场景原型以进行最终预测。值得注意的是，在训练阶段仅需要有限数量的带注释的多场景图像。为了促进空中场景识别的进展，我们产生了一个新的多场景空中图像（MAI）数据集。关于变量数据集配置的实验结果证明了我们网络的有效性。我们的数据集和代码是公开可用的我们首先从单场景航拍图像数据集中学习每个航拍场景的原型表示并将其存储在外部存储器中。之后，设计了一个基于多头注意力的内存检索模块，以检索与查询多场景图像有关的场景原型以进行最终预测。值得注意的是，在训练阶段仅需要有限数量的带注释的多场景图像。为了促进空中场景识别的进展，我们产生了一个新的多场景空中图像（MAI）数据集。关于变量数据集配置的实验结果证明了我们网络的有效性。我们的数据集和代码是公开可用的设计了一个基于多头注意力的内存检索模块，以检索与查询多场景图像有关的场景原型以进行最终预测。值得注意的是，在训练阶段仅需要有限数量的带注释的多场景图像。为了促进空中场景识别的进展，我们产生了一个新的多场景空中图像（MAI）数据集。关于变量数据集配置的实验结果证明了我们网络的有效性。我们的数据集和代码是公开可用的设计了一个基于多头注意力的内存检索模块，以检索与查询多场景图像有关的场景原型以进行最终预测。值得注意的是，在训练阶段仅需要有限数量的带注释的多场景图像。为了促进空中场景识别的进展，我们产生了一个新的多场景空中图像（MAI）数据集。关于变量数据集配置的实验结果证明了我们网络的有效性。我们的数据集和代码是公开可用的¹。

更新日期：2021-05-17

点击分享查看原文

点击收藏

公开下载

阅读更多本刊最新论文本刊介绍/投稿指南

全部期刊列表>>