当前位置: X-MOL 学术Int. J. Comput. Vis. › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
Learning Multifunctional Binary Codes for Personalized Image Retrieval
International Journal of Computer Vision ( IF 19.5 ) Pub Date : 2020-03-17 , DOI: 10.1007/s11263-020-01315-0
Haomiao Liu , Ruiping Wang , Shiguang Shan , Xilin Chen

Due to the highly complex semantic information of images, even with the same query image, the expected content-based image retrieval results could be very different and personalized in different scenarios. However, most existing hashing methods only preserve one single type of semantic similarity, making them incapable of addressing such realistic retrieval tasks. To deal with this problem, we propose a unified hashing framework to encode multiple types of information into the binary codes by exploiting convolutional networks (CNNs). Specifically, we assume that typical retrieval tasks are generally defined in two aspects, i.e. high-level semantics (e.g. object categories) and visual attributes (e.g. object shape and color). To this end, our Dual Purpose Hashing model is trained to jointly preserve two kinds of similarities characterizing the two aspects respectively. Moreover, since images with both category and attribute labels are scarce, our model is carefully designed to leverage the abundant partially labelled data as training inputs to alleviate the risk of overfitting. With such a framework, the binary codes of new-coming images can be readily obtained by quantizing the outputs of a specific CNN layer, and different retrieval tasks can be achieved by using the binary codes in different ways. Experiments on two large-scale datasets show that our method achieves comparable or even better performance than those state-of-the-art methods specifically designed for each individual retrieval task while being more compact than the compared methods.

中文翻译:

学习用于个性化图像检索的多功能二进制代码

由于图像的语义信息非常复杂,即使是相同的查询图像,在不同的场景下,基于内容的图像检索结果也可能有很大差异和个性化。然而,大多数现有的散列方法仅保留一种单一类型的语义相似性,使其无法解决此类现实的检索任务。为了解决这个问题,我们提出了一个统一的散列框架,通过利用卷积网络 (CNN) 将多种类型的信息编码为二进制代码。具体来说,我们假设典型的检索任务通常在两个方面进行定义,即高级语义(例如对象类别)和视觉属性(例如对象形状和颜色)。为此,我们的双重目的哈希模型经过训练以共同保留分别表征两个方面的两种相似性。此外,由于具有类别和属性标签的图像很少,我们的模型经过精心设计,以利用丰富的部分标记数据作为训练输入来减轻过度拟合的风险。有了这样的框架,可以通过量化特定 CNN 层的输出来轻松获得新图像的二进制代码,并且可以通过以不同方式使用二进制代码来实现不同的检索任务。在两个大规模数据集上的实验表明,我们的方法比那些专门为每个单独的检索任务设计的最先进方法实现了可比甚至更好的性能,同时比比较方法更紧凑。由于具有类别和属性标签的图像很少,我们的模型经过精心设计,以利用丰富的部分标记数据作为训练输入来减轻过度拟合的风险。有了这样的框架,可以通过量化特定 CNN 层的输出来轻松获得新图像的二进制代码,并且可以通过以不同方式使用二进制代码来实现不同的检索任务。在两个大规模数据集上的实验表明,我们的方法比那些专门为每个单独的检索任务设计的最先进方法实现了可比甚至更好的性能,同时比比较方法更紧凑。由于具有类别和属性标签的图像很少,我们的模型经过精心设计,以利用丰富的部分标记数据作为训练输入来减轻过度拟合的风险。有了这样的框架,可以通过量化特定 CNN 层的输出来轻松获得新图像的二进制代码,并且可以通过以不同方式使用二进制代码来实现不同的检索任务。在两个大规模数据集上的实验表明,我们的方法比那些专门为每个单独的检索任务设计的最先进方法实现了可比甚至更好的性能,同时比比较方法更紧凑。我们的模型经过精心设计,以利用丰富的部分标记数据作为训练输入来减轻过度拟合的风险。有了这样的框架,可以通过量化特定 CNN 层的输出来轻松获得新图像的二进制代码,并且可以通过以不同方式使用二进制代码来实现不同的检索任务。在两个大规模数据集上的实验表明,我们的方法比那些专门为每个单独的检索任务设计的最先进方法实现了可比甚至更好的性能,同时比比较方法更紧凑。我们的模型经过精心设计,以利用丰富的部分标记数据作为训练输入来减轻过度拟合的风险。有了这样的框架,可以通过量化特定 CNN 层的输出来轻松获得新图像的二进制代码,并且可以通过以不同方式使用二进制代码来实现不同的检索任务。在两个大规模数据集上的实验表明,我们的方法比那些专门为每个单独的检索任务设计的最先进方法实现了可比甚至更好的性能,同时比比较方法更紧凑。并且可以通过不同方式使用二进制代码来实现不同的检索任务。在两个大规模数据集上的实验表明,我们的方法比那些专门为每个单独的检索任务设计的最先进方法实现了可比甚至更好的性能,同时比比较方法更紧凑。并且可以通过不同方式使用二进制代码来实现不同的检索任务。在两个大规模数据集上的实验表明,我们的方法比那些专门为每个单独的检索任务设计的最先进方法实现了可比甚至更好的性能,同时比比较方法更紧凑。
更新日期:2020-03-17
down
wechat
bug