当前位置: X-MOL 学术Pattern Recogn. › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
Single annotated pixel based weakly supervised semantic segmentation under driving scenes
Pattern Recognition ( IF 7.5 ) Pub Date : 2021-04-06 , DOI: 10.1016/j.patcog.2021.107979
Xi Li , Huimin Ma , Sheng Yi , Yanxian Chen , Hongbing Ma

Semantic segmentation tasks based on weakly supervised conditions have been put forward to achieve a lightweight labeling process. For simple images that only include a few categories, research based on image-level annotations has achieved acceptable performance. However, when facing complex scenes, since image contains a large number of classes, it becomes challenging to learn visual appearance based on image tags. In this case, image-level annotations are not useful in providing information. Therefore, we set up a new task in which a single annotated pixel is provided for each category in a whole dataset. Based on the more lightweight and informative condition, a three step process is built for pseudo labels generation, which progressively implements each class’ optimal feature representation, image inference, and context-location based refinement. In particular, since high-level semantics and low-level imaging features have different discriminative abilities for each class under driving scenes, we divide categories into “object” or “scene” and then provide different operations for the two types separately. Further, an alternate iterative structure is established to gradually improve segmentation performance, which combines CNN-based inter-image common semantic learning and imaging prior based intra-image modification process. Experiments on the Cityscapes dataset demonstrate that the proposed method provides a feasible way to solve weakly supervised semantic segmentation tasks under complex driving scenes.



中文翻译:

驾驶场景下基于单个注释像素的弱监督语义分割

提出了基于弱监督条件的语义分割任务,以实现轻量级的标记过程。对于仅包含少数类别的简单图像,基于图像级别注释的研究已取得可接受的性能。然而,当面对复杂的场景时,由于图像包含大量类别,因此基于图像标签学习视觉外观变得具有挑战性。在这种情况下,图像级注释在提供信息时没有用。因此,我们设置了一个新任务,其中为整个数据集中的每个类别提供一个带注释的像素。根据更加轻巧和信息量丰富的条件,我们构建了一个三步过程来生成伪标签,该过程逐步实现了每个类别的最佳特征表示,图像推断,和基于上下文定位的优化。特别是,由于高级语义和低级图像特征在驾驶场景下对每个类别具有不同的判别能力,因此我们将类别分为“对象”或“场景”,然后分别为这两种类型提供不同的操作。此外,建立了替代的迭代结构以逐渐提高分割性能,该结构结合了基于CNN的图像间通用语义学习和基于图像先验的图像内修改过程。在Cityscapes数据集上的实验表明,该方法为解决复杂驾驶场景下的弱监督语义分割任务提供了一种可行的方法。由于高级语义和低级图像特征对驾驶场景下的每个类别具有不同的判别能力,因此我们将类别分为“对象”或“场景”,然后分别为这两种类型提供不同的操作。此外,建立了替代的迭代结构以逐步提高分割性能,该结构结合了基于CNN的图像间通用语义学习和基于图像先验的图像内修改过程。在Cityscapes数据集上的实验表明,该方法为解决复杂驾驶场景下的弱监督语义分割任务提供了一种可行的方法。由于高级语义和低级图像特征对驾驶场景下的每个类别具有不同的判别能力,因此我们将类别分为“对象”或“场景”,然后分别为这两种类型提供不同的操作。此外,建立了替代的迭代结构以逐步提高分割性能,该结构结合了基于CNN的图像间通用语义学习和基于图像先验的图像内修改过程。在Cityscapes数据集上的实验表明,该方法为解决复杂驾驶场景下的弱监督语义分割任务提供了一种可行的方法。建立了一个交替的迭代结构来逐步提高分割性能,该结构结合了基于CNN的图像间通用语义学习和基于图像先验的图像内修改过程。在Cityscapes数据集上的实验表明,该方法为解决复杂驾驶场景下的弱监督语义分割任务提供了一种可行的方法。建立了一个交替的迭代结构来逐步提高分割性能,该结构结合了基于CNN的图像间通用语义学习和基于图像先验的图像内修改过程。在Cityscapes数据集上的实验表明,该方法为解决复杂驾驶场景下的弱监督语义分割任务提供了一种可行的方法。

更新日期:2021-04-12
down
wechat
bug