当前位置: X-MOL 学术Future Gener. Comput. Syst. › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
DDFPN: Context enhanced network for object detection
Future Generation Computer Systems ( IF 7.5 ) Pub Date : 2021-05-28 , DOI: 10.1016/j.future.2021.05.018
Kewei Wu , Yuming Zhang , Zhao Xie , Dan Guo , Xin An

Context modeling presents a pioneering approach for confusing object detection. Although FPN has provided features for multi-scale objects, the feature captures limited feature for spatial context and a little feature for semantic context. In this work, we exploit an end-to-end Dilated and Deformable Feature Pyramid Network, namely DDFPN, to jointly extract spatial and semantic context. For the spatial context, we present Dilated and Deformable Convolution (DDC) to generate a more flexible receptive field than the conventional convolution of FPN. We design a Multi-scale DDC module to learn features for the various deformable objects. For the semantic context, we notice semantic context can be extracted from both features and predictions, and we design two modules to estimate two context relationships from them. The Cross Feature Correlation (CFC) module can estimate the contextual attention from other features. The Co-occurrence Inference (CI) module can learn the co-occurrence features from other predictions. Our network can be applied to various baselines of the FPN family and has similar FLOPs, parameters, and inference speed with these baselines. On MSCOCO minival and test-dev datasets, experiments show that our DDFPN is consistently better than various baselines, including RetinaNet, Faster R-CNN, Mask R-CNN, and Cascade R-CNN. Ablation exemplars show that our contexts are complementary to detect various confusing objects.



中文翻译:

DDFPN:用于对象检测的上下文增强网络

上下文建模为混淆对象检测提供了一种开创性的方法。尽管 FPN 为多尺度对象提供了特征,但该特征捕获了空间上下文的有限特征和语义上下文的少量特征。在这项工作中,我们利用端到端的扩张和可变形特征金字塔网络,即 DDFPN,联合提取空间和语义上下文。对于空间上下文,我们提出了扩张和可变形卷积 (DDC),以生成比 FPN 的传统卷积更灵活的感受野。我们设计了一个多尺度 DDC 模块来学习各种可变形物体的特征。对于语义上下文,我们注意到语义上下文可以从特征和预测中提取,我们设计了两个模块来估计两个上下文关系。Cross Feature Correlation (CFC) 模块可以估计来自其他特征的上下文注意力。共现推理 (CI) 模块可以从其他预测中学习共现特征。我们的网络可以应用于 FPN 系列的各种基线,并且与这些基线具有相似的 FLOP、参数和推理速度。在 MSCOCO minival 和 test-dev 数据集上,实验表明我们的 DDFPN 始终优于各种基线,包括 RetinaNet、Faster R-CNN、Mask R-CNN 和 Cascade R-CNN。消融示例表明,我们的上下文是互补的,可以检测各种令人困惑的对象。我们的网络可以应用于 FPN 系列的各种基线,并且与这些基线具有相似的 FLOP、参数和推理速度。在 MSCOCO minival 和 test-dev 数据集上,实验表明我们的 DDFPN 始终优于各种基线,包括 RetinaNet、Faster R-CNN、Mask R-CNN 和 Cascade R-CNN。消融示例表明,我们的上下文是互补的,可以检测各种令人困惑的对象。我们的网络可以应用于 FPN 系列的各种基线,并且与这些基线具有相似的 FLOP、参数和推理速度。在 MSCOCO minival 和 test-dev 数据集上,实验表明我们的 DDFPN 始终优于各种基线,包括 RetinaNet、Faster R-CNN、Mask R-CNN 和 Cascade R-CNN。消融示例表明,我们的上下文是互补的,可以检测各种令人困惑的对象。

更新日期:2021-06-02
down
wechat
bug