当前位置: X-MOL 学术Int. J. Comput. Vis. › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
Multi-task Compositional Network for Visual Relationship Detection
International Journal of Computer Vision ( IF 19.5 ) Pub Date : 2020-07-30 , DOI: 10.1007/s11263-020-01353-8
Yibing Zhan , Jun Yu , Ting Yu , Dacheng Tao

Previous methods treat visual relationship detection as a combination of object detection and predicate detection. However, natural images likely contain hundreds of objects and thousands of object pairs. Relying only on object detection and predicate detection is insufficient for effective visual relationship detection because the significant relationships are easily overwhelmed by the dominant less-significant relationships. In this paper, we propose a novel subtask for visual relationship detection, the significance detection, as the complement of object detection and predicate detection. Significance detection refers to the task of identifying object pairs with significant relationships. Meanwhile, we propose a novel multi-task compositional network (MCN) that simultaneously performs object detection, predicate detection, and significance detection. MCN consists of three modules, an object detector, a relationship generator, and a relationship predictor. The object detector detects objects. The relationship generator provides useful relationships, and the relationship predictor produces significance scores and predicts predicates. Furthermore, MCN proposes a multimodal feature fusion strategy based on visual, spatial, and label features and a novel correlated loss function to deeply combine object detection, predicate detection, and significance detection. MCN is validated on two datasets: visual relationship detection dataset and visual genome dataset. The experimental results compared with state-of-the-art methods verify the competitiveness of MCN and the usefulness of significance detection in visual relationship detection.

中文翻译:

用于视觉关系检测的多任务组合网络

以前的方法将视觉关系检测视为对象检测和谓词检测的组合。然而,自然图像可能包含数百个对象和数千个对象对。仅依靠对象检测和谓词检测不足以进行有效的视觉关系检测,因为重要的关系很容易被占主导地位的不太重要的关系所淹没。在本文中,我们提出了一个新的视觉关系检测子任务,即重要性检测,作为对象检测和谓词检测的补充。重要性检测是指识别具有重要关系的对象对的任务。同时,我们提出了一种新颖的多任务组合网络(MCN),它同时执行对象检测、谓词检测、和重要性检测。MCN 由三个模块组成,一个对象检测器、一个关系生成器和一个关系预测器。物体检测器检测物体。关系生成器提供有用的关系,关系预测器产生显着性分数并预测谓词。此外,MCN 提出了一种基于视觉、空间和标签特征的多模态特征融合策略和一种新的相关损失函数,将对象检测、谓词检测和重要性检测深度结合。MCN 在两个数据集上得到验证:视觉关系检测数据集和视觉基因组数据集。实验结果与最先进的方法相比,验证了 MCN 的竞争力和显着性检测在视觉关系检测中的有用性。对象检测器、关系生成器和关系预测器。物体检测器检测物体。关系生成器提供有用的关系,关系预测器产生显着性分数并预测谓词。此外,MCN 提出了一种基于视觉、空间和标签特征的多模态特征融合策略和一种新的相关损失函数,将对象检测、谓词检测和重要性检测深度结合。MCN 在两个数据集上得到验证:视觉关系检测数据集和视觉基因组数据集。实验结果与最先进的方法相比,验证了 MCN 的竞争力和显着性检测在视觉关系检测中的有用性。对象检测器、关系生成器和关系预测器。物体检测器检测物体。关系生成器提供有用的关系,关系预测器产生显着性分数并预测谓词。此外,MCN 提出了一种基于视觉、空间和标签特征的多模态特征融合策略和一种新的相关损失函数,将对象检测、谓词检测和重要性检测深度结合。MCN 在两个数据集上得到验证:视觉关系检测数据集和视觉基因组数据集。实验结果与最先进的方法相比,验证了 MCN 的竞争力和显着性检测在视觉关系检测中的有用性。物体检测器检测物体。关系生成器提供有用的关系,关系预测器产生显着性分数并预测谓词。此外,MCN 提出了一种基于视觉、空间和标签特征的多模态特征融合策略和一种新的相关损失函数,将对象检测、谓词检测和重要性检测深度结合。MCN 在两个数据集上得到验证:视觉关系检测数据集和视觉基因组数据集。实验结果与最先进的方法相比,验证了 MCN 的竞争力和显着性检测在视觉关系检测中的有用性。物体检测器检测物体。关系生成器提供有用的关系,关系预测器产生显着性分数并预测谓词。此外,MCN 提出了一种基于视觉、空间和标签特征的多模态特征融合策略和一种新的相关损失函数,将对象检测、谓词检测和重要性检测深度结合。MCN 在两个数据集上得到验证:视觉关系检测数据集和视觉基因组数据集。实验结果与最先进的方法相比,验证了 MCN 的竞争力和显着性检测在视觉关系检测中的有用性。MCN 提出了一种基于视觉、空间和标签特征的多模态特征融合策略和一种新颖的相关损失函数,将对象检测、谓词检测和重要性检测深度结合。MCN 在两个数据集上得到验证:视觉关系检测数据集和视觉基因组数据集。实验结果与最先进的方法相比,验证了 MCN 的竞争力和显着性检测在视觉关系检测中的有用性。MCN 提出了一种基于视觉、空间和标签特征的多模态特征融合策略和一种新颖的相关损失函数,将对象检测、谓词检测和重要性检测深度结合。MCN 在两个数据集上得到验证:视觉关系检测数据集和视觉基因组数据集。实验结果与最先进的方法相比,验证了 MCN 的竞争力和显着性检测在视觉关系检测中的有用性。
更新日期:2020-07-30
down
wechat
bug