当前位置: X-MOL 学术IEEE Trans. Neural Netw. Learn. Syst. › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
Robust Scene Parsing by Mining Supportive Knowledge From Dataset
IEEE Transactions on Neural Networks and Learning Systems ( IF 10.4 ) Pub Date : 2021-09-14 , DOI: 10.1109/tnnls.2021.3107194
Ao Luo , Fan Yang , Xin Li , Yuezun Li , Zhicheng Jiao , Hong Cheng , Siwei Lyu

Scene parsing, or semantic segmentation, aims at labeling all pixels in an image with the predefined categories of things and stuff. Learning a robust representation for each pixel is crucial for this task. Existing state-of-the-art (SOTA) algorithms employ deep neural networks to learn (discover) the representations needed for parsing from raw data. Nevertheless, these networks discover desired features or representations only from the given image (content), ignoring more generic knowledge contained in the dataset. To overcome this deficiency, we make the first attempt to explore the meaningful supportive knowledge, including general visual concepts (i.e., the generic representations for objects and stuff) and their relations from the whole dataset to enhance the underlying representations of a specific scene for better scene parsing. Specifically, we propose a novel supportive knowledge mining module (SKMM) and a knowledge augmentation operator (KAO), which can be easily plugged into modern scene parsing networks. By taking image-specific content and dataset-level supportive knowledge into full consideration, the resulting model, called knowledge augmented neural network (KANN), can better understand the given scene and provide greater representational power. Experiments are conducted on three challenging scene parsing and semantic segmentation datasets: Cityscapes, Pascal-Context, and ADE20K. The results show that our KANN is effective and achieves better results than all existing SOTA methods.

中文翻译:

通过从数据集中挖掘支持性知识进行稳健的场景解析

场景解析或语义分割旨在用预定义的事物类别标记图像中的所有像素。学习每个像素的稳健表示对于这项任务至关重要。现有的最先进 (SOTA) 算法采用深度神经网络来学习(发现)从原始数据中解析所需的表示。然而,这些网络仅从给定的图像(内容)中发现所需的特征或表示,而忽略了数据集中包含的更多通用知识。为了克服这一缺陷,我们首先尝试探索有意义的支持知识,包括一般视觉概念(即物体和东西的通用表示)及其与整个数据集的关系,以增强特定场景的底层表示,从而更好地场景解析。具体来说,我们提出了一种新颖的支持性知识挖掘模块 (SKMM) 和知识增强运算符 (KAO),它们可以轻松插入现代场景解析网络。通过充分考虑图像特定内容和数据集级支持知识,生成的称为知识增强神经网络 (KANN) 的模型可以更好地理解给定场景并提供更大的表示能力。在三个具有挑战性的场景解析和语义分割数据集上进行了实验:Cityscapes、Pascal-Context 和 ADE20K。结果表明,我们的 KANN 是有效的,并且比所有现有的 SOTA 方法取得了更好的结果。通过充分考虑图像特定内容和数据集级支持知识,生成的称为知识增强神经网络 (KANN) 的模型可以更好地理解给定场景并提供更大的表示能力。在三个具有挑战性的场景解析和语义分割数据集上进行了实验:Cityscapes、Pascal-Context 和 ADE20K。结果表明,我们的 KANN 是有效的,并且比所有现有的 SOTA 方法取得了更好的结果。通过充分考虑图像特定内容和数据集级支持知识,生成的称为知识增强神经网络 (KANN) 的模型可以更好地理解给定场景并提供更大的表示能力。在三个具有挑战性的场景解析和语义分割数据集上进行了实验:Cityscapes、Pascal-Context 和 ADE20K。结果表明,我们的 KANN 是有效的,并且比所有现有的 SOTA 方法取得了更好的结果。和 ADE20K。结果表明,我们的 KANN 是有效的,并且比所有现有的 SOTA 方法取得了更好的结果。和 ADE20K。结果表明,我们的 KANN 是有效的,并且比所有现有的 SOTA 方法取得了更好的结果。
更新日期:2021-09-14
down
wechat
bug