Product1M: Towards Weakly Supervised Instance-Level Product Retrieval via Cross-modal Pretraining,arXiv - CS - Computer Vision and Pattern Recognition

当前位置： X-MOL 学术 › arXiv.cs.CV › 论文详情

Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)

Product1M: Towards Weakly Supervised Instance-Level Product Retrieval via Cross-modal Pretraining
arXiv - CS - Computer Vision and Pattern Recognition Pub Date : 2021-07-30 , DOI: arxiv-2107.14572
Xunlin Zhan, Yangxin Wu, Xiao Dong, Yunchao Wei, Minlong Lu, Yichi Zhang, Hang Xu, Xiaodan Liang

Nowadays, customer's demands for E-commerce are more diversified, which introduces more complications to the product retrieval industry. Previous methods are either subject to single-modal input or perform supervised image-level product retrieval, thus fail to accommodate real-life scenarios where enormous weakly annotated multi-modal data are present. In this paper, we investigate a more realistic setting that aims to perform weakly-supervised multi-modal instance-level product retrieval among fine-grained product categories. To promote the study of this challenging task, we contribute Product1M, one of the largest multi-modal cosmetic datasets for real-world instance-level retrieval. Notably, Product1M contains over 1 million image-caption pairs and consists of two sample types, i.e., single-product and multi-product samples, which encompass a wide variety of cosmetics brands. In addition to the great diversity, Product1M enjoys several appealing characteristics including fine-grained categories, complex combinations, and fuzzy correspondence that well mimic the real-world scenes. Moreover, we propose a novel model named Cross-modal contrAstive Product Transformer for instance-level prodUct REtrieval (CAPTURE), that excels in capturing the potential synergy between multi-modal inputs via a hybrid-stream transformer in a self-supervised manner.CAPTURE generates discriminative instance features via masked multi-modal learning as well as cross-modal contrastive pretraining and it outperforms several SOTA cross-modal baselines. Extensive ablation studies well demonstrate the effectiveness and the generalization capacity of our model.

中文翻译：

Product1M：通过跨模态预训练实现弱监督实例级产品检索

如今，客户对电子商务的需求更加多样化，这给产品检索行业带来了更多的复杂性。以前的方法要么受制于单模态输入，要么执行有监督的图像级产品检索，因此无法适应存在大量弱注释多模态数据的现实场景。在本文中，我们研究了一种更现实的设置，旨在在细粒度产品类别中执行弱监督的多模态实例级产品检索。为了促进这项具有挑战性的任务的研究，我们贡献了 Product1M，它是用于现实世界实例级检索的最大的多模态化妆品数据集之一。值得注意的是，Product1M 包含超过 100 万个图像字幕对，由两种样本类型组成，即单产品和多产品样本，其中包括各种化妆品品牌。除了巨大的多样性之外，Product1M 还具有几个吸引人的特性，包括细粒度的类别、复杂的组合以及很好地模拟现实世界场景的模糊对应。此外，我们为实例级产品检索 (CAPTURE) 提出了一种名为 Cross-modal contrAstive Product Transformer 的新模型，该模型擅长以自监督方式通过混合流变换器捕获多模态输入之间的潜在协同作用。 CAPTURE通过屏蔽多模态学习以及跨模态对比预训练生成判别实例特征，并且它的性能优于几个 SOTA 跨模态基线。广泛的消融研究很好地证明了我们模型的有效性和泛化能力。除了巨大的多样性之外，Product1M 还具有几个吸引人的特性，包括细粒度的类别、复杂的组合以及很好地模拟现实世界场景的模糊对应。此外，我们为实例级产品检索 (CAPTURE) 提出了一种名为 Cross-modal contrAstive Product Transformer 的新模型，该模型擅长以自监督方式通过混合流变换器捕获多模态输入之间的潜在协同作用。 CAPTURE通过屏蔽多模态学习以及跨模态对比预训练生成判别实例特征，并且它的性能优于几个 SOTA 跨模态基线。广泛的消融研究很好地证明了我们模型的有效性和泛化能力。除了巨大的多样性之外，Product1M 还具有几个吸引人的特性，包括细粒度的类别、复杂的组合以及很好地模拟现实世界场景的模糊对应。此外，我们为实例级产品检索 (CAPTURE) 提出了一种名为 Cross-modal contrAstive Product Transformer 的新模型，该模型擅长以自监督方式通过混合流变换器捕获多模态输入之间的潜在协同作用。 CAPTURE通过屏蔽多模态学习以及跨模态对比预训练生成判别实例特征，并且它的性能优于几个 SOTA 跨模态基线。广泛的消融研究很好地证明了我们模型的有效性和泛化能力。Product1M 具有几个吸引人的特性，包括细粒度的类别、复杂的组合以及很好地模拟现实世界场景的模糊对应。此外，我们为实例级产品检索 (CAPTURE) 提出了一种名为 Cross-modal contrAstive Product Transformer 的新模型，该模型擅长以自监督方式通过混合流变换器捕获多模态输入之间的潜在协同作用。 CAPTURE通过屏蔽多模态学习以及跨模态对比预训练生成判别实例特征，并且它的性能优于几个 SOTA 跨模态基线。广泛的消融研究很好地证明了我们模型的有效性和泛化能力。Product1M 具有几个吸引人的特性，包括细粒度的类别、复杂的组合以及很好地模拟现实世界场景的模糊对应。此外，我们为实例级产品检索 (CAPTURE) 提出了一种名为 Cross-modal contrAstive Product Transformer 的新模型，该模型擅长以自监督方式通过混合流变换器捕获多模态输入之间的潜在协同作用。 CAPTURE通过屏蔽多模态学习以及跨模态对比预训练生成判别实例特征，并且它的性能优于几个 SOTA 跨模态基线。广泛的消融研究很好地证明了我们模型的有效性和泛化能力。我们为实例级产品检索 (CAPTURE) 提出了一种名为 Cross-modal contrAstive Product Transformer 的新模型，该模型擅长以自监督方式通过混合流变换器捕获多模态输入之间的潜在协同作用。 CAPTURE 生成判别力通过屏蔽多模态学习和跨模态对比预训练的实例特征，它优于几个 SOTA 跨模态基线。广泛的消融研究很好地证明了我们模型的有效性和泛化能力。我们为实例级产品检索 (CAPTURE) 提出了一种名为 Cross-modal contrAstive Product Transformer 的新模型，该模型擅长以自监督方式通过混合流变换器捕获多模态输入之间的潜在协同作用。 CAPTURE 生成判别式通过屏蔽多模态学习和跨模态对比预训练的实例特征，它优于几个 SOTA 跨模态基线。广泛的消融研究很好地证明了我们模型的有效性和泛化能力。CAPTURE 通过屏蔽多模态学习以及跨模态对比预训练生成判别实例特征，并且它的性能优于多个 SOTA 跨模态基线。广泛的消融研究很好地证明了我们模型的有效性和泛化能力。CAPTURE 通过屏蔽多模态学习以及跨模态对比预训练生成判别实例特征，并且它的性能优于多个 SOTA 跨模态基线。广泛的消融研究很好地证明了我们模型的有效性和泛化能力。

更新日期：2021-08-02

点击分享查看原文

点击收藏

阅读更多本刊最新论文

全部期刊列表>>