当前位置: X-MOL 学术Int. J. Comput. Vis. › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
Product Quantization Network for Fast Visual Search
International Journal of Computer Vision ( IF 19.5 ) Pub Date : 2020-04-23 , DOI: 10.1007/s11263-020-01326-x
Tan Yu , Jingjing Meng , Chen Fang , Hailin Jin , Junsong Yuan

Product quantization has been widely used in fast image retrieval due to its effectiveness of coding high-dimensional visual features. By constructing the approximation function, we extend the hard-assignment quantization to soft-assignment quantization. Thanks to the differentiable property of the soft-assignment quantization, the product quantization operation can be integrated as a layer in a convolutional neural network, constructing the proposed product quantization network (PQN). Meanwhile, by extending the triplet loss to the asymmetric triplet loss, we directly optimize the retrieval accuracy of the learned representation based on asymmetric similarity measurement. Utilizing PQN, we can learn a discriminative and compact image representation in an end-to-end manner, which further enables a fast and accurate image retrieval. By revisiting residual quantization, we further extend the proposed PQN to residual product quantization network (RPQN). Benefited from the residual learning triggered by residual quantization, RPQN achieves a higher accuracy than PQN using the same computation cost. Moreover, we extend PQN to temporal product quantization network (TPQN) by exploiting temporal consistency in videos to speed up the video retrieval. It integrates frame-wise feature learning, frame-wise features aggregation and video-level feature quantization in a single neural network. Comprehensive experiments conducted on multiple public benchmark datasets demonstrate the state-of-the-art performance of the proposed PQN, RPQN and TPQN in fast image and video retrieval.

中文翻译:

用于快速视觉搜索的产品量化网络

乘积量化因其编码高维视觉特征的有效性而被广泛应用于快速图像检索。通过构造近似函数,我们将硬分配量化扩展到软分配量化。由于软分配量化的可微特性,乘积量化操作可以集成为卷积神经网络中的一个层,构建所提出的乘积量化网络(PQN)。同时,通过将三元组损失扩展到非对称三元组损失,我们直接优化基于非对称相似性度量的学习表示的检索精度。利用 PQN,我们可以以端到端的方式学习有区别且紧凑的图像表示,这进一步实现了快速准确的图像检索。通过重新审视残差量化,我们进一步将提出的 PQN 扩展到残差积量化网络(RPQN)。得益于残差量化触发的残差学习,RPQN 在使用相同计算成本的情况下实现了比 PQN 更高的精度。此外,我们通过利用视频中的时间一致性来加速视频检索,将 PQN 扩展到时间乘积量化网络(TPQN)。它在单个神经网络中集成了逐帧特征学习、逐帧特征聚合和视频级特征量化。在多个公共基准数据集上进行的综合实验证明了所提出的 PQN、RPQN 和 TPQN 在快速图像和视频检索中的最先进性能。得益于残差量化触发的残差学习,RPQN 在使用相同计算成本的情况下实现了比 PQN 更高的精度。此外,我们通过利用视频中的时间一致性来加速视频检索,将 PQN 扩展到时间乘积量化网络(TPQN)。它在单个神经网络中集成了逐帧特征学习、逐帧特征聚合和视频级特征量化。在多个公共基准数据集上进行的综合实验证明了所提出的 PQN、RPQN 和 TPQN 在快速图像和视频检索中的最先进性能。得益于残差量化触发的残差学习,RPQN 在使用相同计算成本的情况下实现了比 PQN 更高的精度。此外,我们通过利用视频中的时间一致性来加速视频检索,将 PQN 扩展到时间乘积量化网络(TPQN)。它在单个神经网络中集成了逐帧特征学习、逐帧特征聚合和视频级特征量化。在多个公共基准数据集上进行的综合实验证明了所提出的 PQN、RPQN 和 TPQN 在快速图像和视频检索中的最先进性能。我们通过利用视频中的时间一致性来加速视频检索,将 PQN 扩展到时间乘积量化网络(TPQN)。它在单个神经网络中集成了逐帧特征学习、逐帧特征聚合和视频级特征量化。在多个公共基准数据集上进行的综合实验证明了所提出的 PQN、RPQN 和 TPQN 在快速图像和视频检索中的最先进性能。我们通过利用视频中的时间一致性来加速视频检索,将 PQN 扩展到时间乘积量化网络(TPQN)。它在单个神经网络中集成了逐帧特征学习、逐帧特征聚合和视频级特征量化。在多个公共基准数据集上进行的综合实验证明了所提出的 PQN、RPQN 和 TPQN 在快速图像和视频检索中的最先进性能。
更新日期:2020-04-23
down
wechat
bug