当前位置: X-MOL 学术Comput. Vis. Image Underst. › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
Deep code operation network for multi-label image retrieval
Computer Vision and Image Understanding ( IF 4.3 ) Pub Date : 2020-02-04 , DOI: 10.1016/j.cviu.2020.102916
Ge Song , Xiaoyang Tan

Deep hashing methods have been extensively studied for large-scale image search and achieved promising results in recent years. However, there are two major limitations of previous deep hashing methods for multi-label image retrieval: the first one concerns the flexibility for users to express their query intention (so-called the intention gap), and the second one concerns the exploitation of rich similarity structures of the semantic space (so-called the semantic gap). To address these issues, we propose a novel Deep Code Operation Network (CoNet), in which a user is allowed to simultaneously present multiple images instead of a single one as his/her query, and then the system triggers a series of code operators to extract the hidden relations among them. In this way, a set of new queries are automatically constructed to cover users’ real complex query intention, without the need of explicitly stating them. The CoNet is trained with a newly proposed margin-adaptive triplet loss function, which effectively encourages the system to incorporate the hierarchical similarity structures of the semantic space into the learning procedure of the code operations. The whole system has an end-to-end differentiable architecture, equipped with an adversarial mechanism to further improve the quality of the final intention representation. Experimental results on four multi-label image datasets demonstrate that our method significantly improves the state-of-the-art in performing complex multi-label retrieval tasks with multiple query images.



中文翻译:

用于多标签图像检索的深度代码操作网络

深度散列方法已被广泛研究用于大规模图像搜索,并且近年来取得了可喜的结果。但是,先前的多标签图像检索深度哈希方法存在两个主要局限性:第一个涉及用户表达其查询意图的灵活性(所谓的意图缺口),第二个涉及对富人的利用。语义空间的相似性结构(所谓的语义间隙)。为了解决这些问题,我们提出了一种新颖的深度代码操作网络(CoNet),其中允许用户同时显示多个图像而不是单个图像作为他/她的查询,然后系统触发一系列代码运算符来提取其中的隐藏关系。通过这种方式,自动构造一组新查询,以覆盖用户的实际复杂查询意图,而无需明确说明它们。CoNet使用新提出的边距自适应三元组损失函数进行训练,该函数有效地鼓励系统将语义空间的分层相似性结构合并到代码操作的学习过程中。整个系统具有端到端的差异化架构,并配备了对抗机制,以进一步提高最终意图表示的质量。在四个多标签图像数据集上的实验结果表明,我们的方法显着改善了在执行具有多个查询图像的复杂多标签检索任务时的最新技术。CoNet使用新提出的边距自适应三元组损失函数进行训练,该函数有效地鼓励系统将语义空间的分层相似性结构合并到代码操作的学习过程中。整个系统具有端到端的差异化架构,并配备了对抗机制,以进一步提高最终意图表示的质量。在四个多标签图像数据集上的实验结果表明,我们的方法显着改善了在执行具有多个查询图像的复杂多标签检索任务时的最新技术。CoNet使用新提出的边距自适应三元组损失函数进行训练,该函数有效地鼓励系统将语义空间的分层相似性结构合并到代码操作的学习过程中。整个系统具有端到端的差异化架构,并配备了对抗机制,以进一步提高最终意图表示的质量。在四个多标签图像数据集上的实验结果表明,我们的方法显着改善了在执行具有多个查询图像的复杂多标签检索任务时的最新技术。整个系统具有端到端的差异化架构,并配备了对抗机制,以进一步提高最终意图表示的质量。在四个多标签图像数据集上的实验结果表明,我们的方法显着改善了在执行具有多个查询图像的复杂多标签检索任务时的最新技术。整个系统具有端到端的差异化架构,并配备了对抗机制,以进一步提高最终意图表示的质量。在四个多标签图像数据集上的实验结果表明,我们的方法显着改善了在执行具有多个查询图像的复杂多标签检索任务时的最新技术。

更新日期:2020-02-04
down
wechat
bug