当前位置: X-MOL 学术Multimed. Tools Appl. › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
Zero-shot recognition with latent visual attributes learning
Multimedia Tools and Applications ( IF 3.6 ) Pub Date : 2020-07-24 , DOI: 10.1007/s11042-020-09316-4
Yurui Xie , Xiaohai He , Jing Zhang , Xiaodong Luo

Zero-shot learning (ZSL) aims to recognize novel object categories by means of transferring knowledge extracted from the seen categories (source domain) to the unseen categories (target domain). Recently, most ZSL methods concentrate on learning a visual-semantic alignment to bridge image features and their semantic representations by relying solely on the human-designed attributes. However, few works study whether the human-designed attributes are discriminative enough for recognition task. To address this problem, we propose a couple semantic dictionaries (CSD) learning approach to exploit the latent visual attributes and align the visual-semantic spaces at the same time. Specifically, the learned visual attributes are elegantly incorporated into the semantic representation of image feature and then consolidate the discriminative visual cues for object recognition. In addition, existing ZSL methods suffer from the domain shift issue due to the source domain and target domain have completely separated label spaces. We further employ the visual-semantic alignment and latent visual attributes jointly from source domain to regularise the learning of target domain, which ensures the expansibility of information transfer across domains. We formulate this as an optimization problem on a unified objective and propose an iterative solver. Extensive experiments on two challenging benchmark datasets demonstrate that our proposed approach outperforms several state-of-the-art ZSL methods.



中文翻译:

具有潜在视觉属性学习的零镜头识别

零镜头学习(ZSL)旨在通过将从可见类别(源域)中提取的知识转移到看不见类别(目标域)中来识别新颖的对象类别。最近,大多数ZSL方法都集中于学习视觉语义对齐方式,以仅依靠人工设计的属性来桥接图像特征及其语义表示。但是,很少有人研究人为设计的属性是否足以区分识别任务。为了解决这个问题,我们提出了几种语义词典(CSD)学习方法,以利用潜在的视觉属性并同时对齐视觉语义空间。特别,将学习到的视觉属性巧妙地整合到图像特征的语义表示中,然后合并用于对象识别的区分性视觉线索。另外,由于源域和目标域具有完全分开的标签空间,因此现有的ZSL方法会遭受域移位问题。我们进一步从源域联合使用视觉语义对齐和潜在视觉属性来规范目标域的学习,这确保了跨域信息传递的可扩展性。我们将此公式化为基于统一目标的优化问题,并提出了迭代求解器。在两个具有挑战性的基准数据集上进行的大量实验表明,我们提出的方法优于几种最新的ZSL方法。现有的ZSL方法由于源域和目标域具有完全分隔的标签空间而遭受域移位问题。我们进一步从源域联合使用视觉语义对齐和潜在视觉属性来规范目标域的学习,这确保了跨域信息传递的可扩展性。我们将此公式化为基于统一目标的优化问题,并提出了迭代求解器。在两个具有挑战性的基准数据集上进行的大量实验表明,我们提出的方法优于几种最新的ZSL方法。现有的ZSL方法由于源域和目标域具有完全分隔的标签空间而遭受域移位问题。我们进一步从源域联合使用视觉语义对齐和潜在视觉属性来规范目标域的学习,这确保了跨域信息传递的可扩展性。我们将此公式化为基于统一目标的优化问题,并提出了迭代求解器。在两个具有挑战性的基准数据集上进行的大量实验表明,我们提出的方法优于几种最新的ZSL方法。我们进一步从源域中联合使用视觉语义对齐和潜在的视觉属性来规范目标域的学习,从而确保跨域信息传递的可扩展性。我们将此公式化为基于统一目标的优化问题,并提出了迭代求解器。在两个具有挑战性的基准数据集上进行的大量实验表明,我们提出的方法优于几种最新的ZSL方法。我们进一步从源域联合使用视觉语义对齐和潜在视觉属性来规范目标域的学习,这确保了跨域信息传递的可扩展性。我们将此公式化为基于统一目标的优化问题,并提出了迭代求解器。在两个具有挑战性的基准数据集上进行的大量实验表明,我们提出的方法优于几种最新的ZSL方法。

更新日期:2020-07-24
down
wechat
bug