当前位置: X-MOL 学术Int. J. Comput. Vis. › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
OCNet: Object Context for Semantic Segmentation
International Journal of Computer Vision ( IF 11.6 ) Pub Date : 2021-05-24 , DOI: 10.1007/s11263-021-01465-9
Yuhui Yuan , Lang Huang , Jianyuan Guo , Chao Zhang , Xilin Chen , Jingdong Wang

In this paper, we address the semantic segmentation task with a new context aggregation scheme named object context, which focuses on enhancing the role of object information. Motivated by the fact that the category of each pixel is inherited from the object it belongs to, we define the object context for each pixel as the set of pixels that belong to the same category as the given pixel in the image. We use a binary relation matrix to represent the relationship between all pixels, where the value one indicates the two selected pixels belong to the same category and zero otherwise. We propose to use a dense relation matrix to serve as a surrogate for the binary relation matrix. The dense relation matrix is capable to emphasize the contribution of object information as the relation scores tend to be larger on the object pixels than the other pixels. Considering that the dense relation matrix estimation requires quadratic computation overhead and memory consumption w.r.t. the input size, we propose an efficient interlaced sparse self-attention scheme to model the dense relations between any two of all pixels via the combination of two sparse relation matrices. To capture richer context information, we further combine our interlaced sparse self-attention scheme with the conventional multi-scale context schemes including pyramid pooling (Zhao et al. 2017) and atrous spatial pyramid pooling (Chen et al. 2018). We empirically show the advantages of our approach with competitive performances on five challenging benchmarks including: Cityscapes, ADE20K, LIP, PASCAL-Context and COCO-Stuff.



中文翻译:

OCNet:语义分割的对象上下文

在本文中,我们通过一种名为对象上下文的新上下文聚合方案来解决语义分割任务。,其重点是增强对象信息的作用。由于每个像素的类别都从其所属的对象继承而来,因此,我们将每个像素的对象上下文定义为与图像中给定像素属于同一类别的一组像素。我们使用二进制关系矩阵来表示所有像素之间的关系,其中值1表示两个选定的像素属于同一类别,否则为零。我们建议使用密集关系矩阵作为二进制关系矩阵的替代。密集关系矩阵能够强调对象信息的贡献,因为对象像素上的关系得分往往比其他像素大。考虑到密集关系矩阵估计需要二次计算开销和输入大小的内存消耗,因此我们提出了一种有效的隔行稀疏自关注方案,以通过两个稀疏关系矩阵的组合来建模所有像素中任意两个像素之间的密集关系。为了捕获更丰富的上下文信息,我们进一步将交错的稀疏自我注意方案与常规的多尺度上下文方案(包括金字塔池(Zhao等人,2017)和无空间金字塔空间(Chen等人,2018)相结合。我们在五个具有挑战性的基准上通过经验展示了我们方法的优势,包括:城市景观,ADE20K,LIP,PASCAL-Context和COCO-Stuff。我们提出了一种有效的隔行稀疏自注意方案,以通过两个稀疏关系矩阵的组合来建模所有像素中任意两个像素之间的稠密关系。为了捕获更丰富的上下文信息,我们进一步将交错的稀疏自我注意方案与常规的多尺度上下文方案(包括金字塔池(Zhao等人,2017)和无空间金字塔空间(Chen等人,2018)相结合。我们在五个具有挑战性的基准上通过经验展示了我们方法的优势,包括:城市景观,ADE20K,LIP,PASCAL-Context和COCO-Stuff。我们提出了一种有效的隔行稀疏自注意方案,以通过两个稀疏关系矩阵的组合来建模所有像素中任意两个像素之间的稠密关系。为了捕获更丰富的上下文信息,我们进一步将交错的稀疏自我关注方案与常规的多尺度上下文方案(包括金字塔池(Zhao等人,2017)和无空间空间金字塔池(Chen等人,2018)相结合。我们在五个具有挑战性的基准上通过经验展示了我们方法的优势,包括:城市景观,ADE20K,LIP,PASCAL-Context和COCO-Stuff。我们将隔行稀疏自我注意方案与传统的多尺度上下文方案(包括金字塔池(Zhao等,2017)和无空间金字塔池(Chen等,2018)结合起来。我们在五个具有挑战性的基准上通过经验展示了我们方法的优势,包括:城市景观,ADE20K,LIP,PASCAL-Context和COCO-Stuff。我们将隔行稀疏自我注意方案与传统的多尺度上下文方案(包括金字塔池(Zhao等,2017)和无空间金字塔池(Chen等,2018)结合起来。我们在五个具有挑战性的基准上通过经验展示了我们方法的优势,包括:城市景观,ADE20K,LIP,PASCAL-Context和COCO-Stuff。

更新日期:2021-05-24
down
wechat
bug