当前位置: X-MOL 学术Neural Netw. › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
Modality independent adversarial network for generalized zero shot image classification
Neural Networks ( IF 7.8 ) Pub Date : 2020-11-21 , DOI: 10.1016/j.neunet.2020.11.007
Haofeng Zhang , Yinduo Wang , Yang Long , Longzhi Yang , Ling Shao

Zero Shot Learning (ZSL) aims to classify images of unseen target classes by transferring knowledge from source classes through semantic embeddings. The core of ZSL research is to embed both visual representation of object instance and semantic description of object class into a joint latent space and learn cross-modal (visual and semantic) latent representations. However, the learned representations by existing efforts often fail to fully capture the underlying cross-modal semantic consistency, and some of the representations are very similar and less discriminative. To circumvent these issues, in this paper, we propose a novel deep framework, called Modality Independent Adversarial Network (MIANet) for Generalized Zero Shot Learning (GZSL), which is an end-to-end deep architecture with three submodules. First, both visual feature and semantic description are embedded into a latent hyper-spherical space, where two orthogonal constraints are employed to ensure the learned latent representations discriminative. Second, a modality adversarial submodule is employed to make the latent representations independent of modalities to make the shared representations grab more cross-modal high-level semantic information during training. Third, a cross reconstruction submodule is proposed to reconstruct latent representations into the counterparts instead of themselves to make them capture more modality irrelevant information. Comprehensive experiments on five widely used benchmark datasets are conducted on both GZSL and standard ZSL settings, and the results show the effectiveness of our proposed method.



中文翻译:

模态独立对抗网络用于广义零镜头图像分类

零射击学习(ZSL)旨在通过语义嵌入从源类中转移知识,从而对看不见的目标类的图像进行分类。ZSL研究的核心是将对象实例的视觉表示和对象类的语义描述都嵌入到联合潜在空间中,并学习交叉模式(视觉和语义)潜在表示。但是,通过现有的努力学习的表示形式通常无法完全捕获基本的跨模式语义一致性,并且某些表示形式非常相似且没有歧视性。为了规避这些问题,在本文中,我们提出了一种新颖的深度框架,称为通用零射击学习(GZSL)的模态独立对抗网络(MIANet),它是具有三个子模块的端到端深度架构。第一,视觉特征和语义描述都嵌入到潜在的超球形空间中,在该空间中使用两个正交约束来确保学习到的潜在表示具有区别性。其次,采用模态对抗子模块来使潜在表示独立于模态,以使共享表示在训练过程中能够获取更多的跨模态高级语义信息。第三,提出了一个交叉重构子模块,将潜在表示重构为对应物,而不是自身,以使它们捕获更多与模态无关的信息。在GZSL和标准ZSL设置上对五个广泛使用的基准数据集进行了综合实验,结果表明了该方法的有效性。其中使用两个正交约束来确保学习到的潜在表示具有区别性。其次,采用模态对抗子模块来使潜在表示独立于模态,以使共享表示在训练过程中能够获取更多的跨模态高级语义信息。第三,提出了一个交叉重构子模块,将潜在的表示形式重构为对应的形式,而不是自身的形式,以使它们捕获更多与模态无关的信息。在GZSL和标准ZSL设置上对五个广泛使用的基准数据集进行了综合实验,结果表明了该方法的有效性。其中使用两个正交约束来确保学习到的潜在表示具有区别性。其次,采用模态对抗子模块来使潜在表示独立于模态,以使共享表示在训练过程中能够获取更多的跨模态高级语义信息。第三,提出了一个交叉重构子模块,将潜在的表示形式重构为对应的形式,而不是自身的形式,以使它们捕获更多与模态无关的信息。在GZSL和标准ZSL设置上对五个广泛使用的基准数据集进行了综合实验,结果表明了该方法的有效性。模态对抗子模块用于使潜在表示独立于模态,以使共享表示在训练过程中获取更多的跨模态高级语义信息。第三,提出了一个交叉重构子模块,将潜在的表示形式重构为对应的形式,而不是自身的形式,以使它们捕获更多与模态无关的信息。在GZSL和标准ZSL设置上对五个广泛使用的基准数据集进行了综合实验,结果表明了该方法的有效性。模态对抗子模块用于使潜在表示独立于模态,以使共享表示在训练过程中获取更多的跨模态高级语义信息。第三,提出了一个交叉重构子模块,将潜在的表示形式重构为对应的形式,而不是自身的形式,以使它们捕获更多与模态无关的信息。在GZSL和标准ZSL设置上对五个广泛使用的基准数据集进行了综合实验,结果表明了该方法的有效性。提出了一个交叉重构子模块,将潜在表示重构为对应物,而不是其自身,以使它们捕获更多与模态无关的信息。在GZSL和标准ZSL设置上对五个广泛使用的基准数据集进行了综合实验,结果表明了该方法的有效性。提出了一个交叉重构子模块,将潜在表示重构为对应物,而不是其自身,以使它们捕获更多与模态无关的信息。在GZSL和标准ZSL设置上对五个广泛使用的基准数据集进行了综合实验,结果表明了该方法的有效性。

更新日期:2020-12-02
down
wechat
bug