当前位置: X-MOL 学术Inf. Process. Manag. › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
Multi-level similarity learning for image-text retrieval
Information Processing & Management ( IF 7.4 ) Pub Date : 2020-11-23 , DOI: 10.1016/j.ipm.2020.102432
Wen-Hui Li , Song Yang , Yan Wang , Dan Song , Xuan-Ya Li

Image-text retrieval task has been a popular research topic and attracts a growing interest due to it bridges computer vision and natural language processing communities and involves two different modalities. Although a lot of methods have made a great progress in image-text task, it remains challenging because of the difficulty to learn the correspondence between two heterogeneous modalities. In this paper, we propose a multi-level representation learning for image-text retrieval task, which utilizes semantic-level, structural-level and contextual information to improve the quality of visual and textual representation. To utilize semantic-level information, we firstly extract the nouns, adjectives and number with high frequency as the semantic labels and adopt multi-label convolutional neural network framework to encode the semantic-level information. To explore the structure-level information of image-text pair, we firstly construct two graphs to encode the visual and textual information with respect to the corresponding modality and then, we apply graph matching with triplet loss to reduce the cross-modality discrepancy. To further improve the retrieval results, we utilize the contextual-level information from two modalities to refine the rank list and enhance the retrieval quality. Extensive experiments on Flickr30k and MSCOCO, which are two commonly datasets for image-text retrieval, have demonstrated the superiority of our proposed method.



中文翻译:

用于图像文本检索的多级相似性学习

图像文本检索任务已经成为一个热门的研究主题,并且由于它将计算机视觉和自然语言处理社区联系起来并且涉及两种不同的方式,因此引起了越来越多的兴趣。尽管许多方法在图像文本任务中取得了长足的进步,但由于难以学习两种异构模式之间的对应关系,因此仍然具有挑战性。在本文中,我们提出了一种用于图像文本检索任务的多层次表示学习,该学习利用语义级别,结构级别和上下文信息来提高视觉和文本表示的质量。为了利用语义级别的信息,我们首先提取名词,形容词和高频数字作为语义标签,并采用多标签卷积神经网络框架对语义层信息进行编码。为了探索图像-文本对的结构级信息,我们首先构造两个图以相对于相应的模态对视觉和文本信息进行编码,然后,应用具有三重态损失的图匹配以减少跨模态差异。为了进一步改善检索结果,我们利用来自两种模态的上下文级别信息来完善等级列表并提高检索质量。在Flickr30k和MSCOCO(这是两个用于图像文本检索的常用数据集)上的大量实验证明了我们提出的方法的优越性。我们首先构造两个图以相对于对应的模态对视觉和文本信息进行编码,然后,我们应用具有三重态损失的图匹配以减少跨模态差异。为了进一步改善检索结果,我们利用来自两种模态的上下文级别信息来完善等级列表并提高检索质量。在Flickr30k和MSCOCO(这是两个用于图像文本检索的常用数据集)上的大量实验证明了我们提出的方法的优越性。我们首先构造两个图以相对于对应的模态对视觉和文本信息进行编码,然后,我们应用具有三重态损失的图匹配以减少跨模态差异。为了进一步改善检索结果,我们利用来自两种模态的上下文级别信息来完善等级列表并提高检索质量。在Flickr30k和MSCOCO(这是两个用于图像文本检索的常用数据集)上的大量实验证明了我们提出的方法的优越性。我们利用来自两种模式的上下文级别信息来完善排名列表并提高检索质量。在Flickr30k和MSCOCO(这是两个用于图像文本检索的常用数据集)上的大量实验证明了我们提出的方法的优越性。我们利用来自两种模式的上下文级别信息来完善排名列表并提高检索质量。在Flickr30k和MSCOCO(这是两个用于图像文本检索的常用数据集)上的大量实验证明了我们提出的方法的优越性。

更新日期:2020-11-23
down
wechat
bug