当前位置: X-MOL 学术ACM Trans. Multimed. Comput. Commun. Appl. › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
Zero-shot Cross-modal Retrieval by Assembling AutoEncoder and Generative Adversarial Network
ACM Transactions on Multimedia Computing, Communications, and Applications ( IF 5.2 ) Pub Date : 2021-04-01 , DOI: 10.1145/3424341
Xing Xu 1 , Jialin Tian 1 , Kaiyi Lin 1 , Huimin Lu 2 , Jie Shao 3 , Heng Tao Shen 3
Affiliation  

Conventional cross-modal retrieval models mainly assume the same scope of the classes for both the training set and the testing set. This assumption limits their extensibility on zero-shot cross-modal retrieval (ZS-CMR), where the testing set consists of unseen classes that are disjoint with seen classes in the training set. The ZS-CMR task is more challenging due to the heterogeneous distributions of different modalities and the semantic inconsistency between seen and unseen classes. A few of recently proposed approaches are inspired by zero-shot learning to estimate the distribution underlying multimodal data by generative models and make the knowledge transfer from seen classes to unseen classes by leveraging class embeddings. However, directly borrowing the idea from zero-shot learning (ZSL) is not fully adaptive to the retrieval task, since the core of the retrieval task is learning the common space. To address the above issues, we propose a novel approach named Assembling AutoEncoder and Generative Adversarial Network (AAEGAN), which combines the strength of AutoEncoder (AE) and Generative Adversarial Network (GAN), to jointly incorporate common latent space learning, knowledge transfer, and feature synthesis for ZS-CMR. Besides, instead of utilizing class embeddings as common space, the AAEGAN approach maps all multimodal data into a learned latent space with the distribution alignment via three coupled AEs. We empirically show the remarkable improvement for ZS-CMR task and establish the state-of-the-art or competitive performance on four image-text retrieval datasets.

中文翻译:

通过组装自动编码器和生成对抗网络的零样本跨模态检索

传统的跨模态检索模型主要假设训练集和测试集的类范围相同。这一假设限制了它们在零样本跨模态检索 (ZS-CMR) 上的可扩展性,其中测试集由与训练集中已见类不相交的未见类组成。由于不同模态的异构分布以及可见和不可见类之间的语义不一致,ZS-CMR 任务更具挑战性。最近提出的一些方法受到零样本学习的启发,通过生成模型估计多模态数据的分布,并通过利用类嵌入将知识从可见类转移到不可见类。然而,直接借用零样本学习(ZSL)的思想并不能完全适应检索任务,因为检索任务的核心是学习公共空间。为了解决上述问题,我们提出了一种名为组装自动编码器和生成对抗网络(AAEGAN)的新方法,它结合了自动编码器(AE)和生成对抗网络(GAN)的优势,将共同的潜在空间学习、知识转移、 ZS-CMR 的特征合成。此外,AAEGAN 方法不是将类嵌入用作公共空间,而是通过三个耦合的 AE 将所有多模态数据映射到一个学习的潜在空间中,并进行分布对齐。我们凭经验展示了 ZS-CMR 任务的显着改进,并在四个图像-文本检索数据集上建立了最先进或具有竞争力的性能。我们提出了一种名为组装自动编码器和生成对抗网络 (AAEGAN) 的新方法,它结合了自动编码器 (AE) 和生成对抗网络 (GAN) 的优势,将共同的潜在空间学习、知识转移和 ZS 的特征合成结合起来- CMR。此外,AAEGAN 方法不是将类嵌入用作公共空间,而是通过三个耦合的 AE 将所有多模态数据映射到一个学习的潜在空间中,并进行分布对齐。我们凭经验展示了 ZS-CMR 任务的显着改进,并在四个图像-文本检索数据集上建立了最先进或具有竞争力的性能。我们提出了一种名为组装自动编码器和生成对抗网络 (AAEGAN) 的新方法,它结合了自动编码器 (AE) 和生成对抗网络 (GAN) 的优势,将共同的潜在空间学习、知识转移和 ZS 的特征合成结合起来- CMR。此外,AAEGAN 方法不是将类嵌入用作公共空间,而是通过三个耦合的 AE 将所有多模态数据映射到一个学习的潜在空间中,并进行分布对齐。我们凭经验展示了 ZS-CMR 任务的显着改进,并在四个图像-文本检索数据集上建立了最先进或具有竞争力的性能。共同结合 ZS-CMR 的通用潜在空间学习、知识转移和特征合成。此外,AAEGAN 方法不是将类嵌入用作公共空间,而是通过三个耦合的 AE 将所有多模态数据映射到一个学习的潜在空间中,并进行分布对齐。我们凭经验展示了 ZS-CMR 任务的显着改进,并在四个图像-文本检索数据集上建立了最先进或具有竞争力的性能。共同结合 ZS-CMR 的通用潜在空间学习、知识转移和特征合成。此外,AAEGAN 方法不是将类嵌入用作公共空间,而是通过三个耦合的 AE 将所有多模态数据映射到一个学习的潜在空间中,并进行分布对齐。我们凭经验展示了 ZS-CMR 任务的显着改进,并在四个图像-文本检索数据集上建立了最先进或具有竞争力的性能。
更新日期:2021-04-01
down
wechat
bug