当前位置: X-MOL 学术ISPRS J. Photogramm. Remote Sens. › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
Land cover mapping at very high resolution with rotation equivariant CNNs: Towards small yet accurate models
ISPRS Journal of Photogrammetry and Remote Sensing ( IF 10.6 ) Pub Date : 2018-02-19 , DOI: 10.1016/j.isprsjprs.2018.01.021
Diego Marcos , Michele Volpi , Benjamin Kellenberger , Devis Tuia

In remote sensing images, the absolute orientation of objects is arbitrary. Depending on an object’s orientation and on a sensor’s flight path, objects of the same semantic class can be observed in different orientations in the same image. Equivariance to rotation, in this context understood as responding with a rotated semantic label map when subject to a rotation of the input image, is therefore a very desirable feature, in particular for high capacity models, such as Convolutional Neural Networks (CNNs). If rotation equivariance is encoded in the network, the model is confronted with a simpler task and does not need to learn specific (and redundant) weights to address rotated versions of the same object class. In this work we propose a CNN architecture called Rotation Equivariant Vector Field Network (RotEqNet) to encode rotation equivariance in the network itself. By using rotating convolutions as building blocks and passing only the values corresponding to the maximally activating orientation throughout the network in the form of orientation encoding vector fields, RotEqNet treats rotated versions of the same object with the same filter bank and therefore achieves state-of-the-art performances even when using very small architectures trained from scratch. We test RotEqNet in two challenging sub-decimeter resolution semantic labeling problems, and show that we can perform better than a standard CNN while requiring one order of magnitude less parameters.



中文翻译:

具有旋转等变CNN的高分辨率高分辨率土地覆盖制图:面向小而精确的模型

在遥感图像中,物体的绝对方向是任意的。根据对象的方向和传感器的飞行路径,可以在同一图像中以不同的方向观察到具有相同语义类别的对象。因此,旋转的等方差在此上下文中被理解为在经受输入图像的旋转时以旋转的语义标签图做出响应,这是非常理想的功能,特别是对于高容量模型,例如卷积神经网络(CNN)。如果在网络中对旋转等方差进行了编码,则该模型将面临更简单的任务,并且无需学习特定(和冗余)权重即可解决同一对象类的旋转版本。在这项工作中,我们提出了一种称为旋转等变矢量场网络(RotEqNet)的CNN架构,用于对网络本身的旋转等变进行编码。通过使用旋转卷积作为构建块,并仅以方向编码矢量字段的形式在整个网络中传递与最大激活方向相对应的值,RotEqNet使用相同的滤波器组来处理同一对象的旋转版本,从而获得状态即使使用从头开始训练的很小的体系结构,也能保持最先进的性能。我们在两个具有挑战性的亚分米分辨率语义标记问题中测试了RotEqNet,并表明我们可以比标准CNN表现更好,同时所需参数减少一个数量级。通过使用旋转卷积作为构建块,并仅以方向编码矢量字段的形式在整个网络中传递与最大激活方向相对应的值,RotEqNet使用相同的滤波器组来处理同一对象的旋转版本,从而获得状态即使使用从头开始训练的很小的体系结构,也能保持最先进的性能。我们在两个具有挑战性的亚分米分辨率语义标记问题中测试了RotEqNet,并表明我们可以比标准CNN表现更好,同时所需参数减少一个数量级。通过使用旋转卷积作为构建块,并仅以方向编码矢量字段的形式在整个网络中传递与最大激活方向相对应的值,RotEqNet使用相同的滤波器组来处理同一对象的旋转版本,从而获得状态即使使用从头开始训练的很小的体系结构,也能保持最先进的性能。我们在两个具有挑战性的亚分米分辨率语义标记问题中测试了RotEqNet,并表明我们可以比标准CNN表现更好,同时所需参数减少一个数量级。RotEqNet使用相同的滤波器组来处理同一对象的旋转版本,因此即使使用从头开始训练的非常小的体系结构,也可以实现最新的性能。我们在两个具有挑战性的亚分米分辨率语义标记问题中测试了RotEqNet,并表明我们可以比标准CNN表现更好,同时所需参数减少一个数量级。RotEqNet使用相同的滤波器组来处理同一对象的旋转版本,因此即使使用从头开始训练的非常小的体系结构,也可以实现最新的性能。我们在两个具有挑战性的亚分米分辨率语义标记问题中测试了RotEqNet,并表明我们可以比标准CNN表现更好,同时所需参数减少一个数量级。

更新日期:2018-06-03
down
wechat
bug