当前位置:
X-MOL 学术
›
arXiv.cs.CV
›
论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
Product1M: Towards Weakly Supervised Instance-Level Product Retrieval via Cross-modal Pretraining
arXiv - CS - Computer Vision and Pattern Recognition Pub Date : 2021-07-30 , DOI: arxiv-2107.14572 Xunlin Zhan, Yangxin Wu, Xiao Dong, Yunchao Wei, Minlong Lu, Yichi Zhang, Hang Xu, Xiaodan Liang
arXiv - CS - Computer Vision and Pattern Recognition Pub Date : 2021-07-30 , DOI: arxiv-2107.14572 Xunlin Zhan, Yangxin Wu, Xiao Dong, Yunchao Wei, Minlong Lu, Yichi Zhang, Hang Xu, Xiaodan Liang
Nowadays, customer's demands for E-commerce are more diversified, which
introduces more complications to the product retrieval industry. Previous
methods are either subject to single-modal input or perform supervised
image-level product retrieval, thus fail to accommodate real-life scenarios
where enormous weakly annotated multi-modal data are present. In this paper, we
investigate a more realistic setting that aims to perform weakly-supervised
multi-modal instance-level product retrieval among fine-grained product
categories. To promote the study of this challenging task, we contribute
Product1M, one of the largest multi-modal cosmetic datasets for real-world
instance-level retrieval. Notably, Product1M contains over 1 million
image-caption pairs and consists of two sample types, i.e., single-product and
multi-product samples, which encompass a wide variety of cosmetics brands. In
addition to the great diversity, Product1M enjoys several appealing
characteristics including fine-grained categories, complex combinations, and
fuzzy correspondence that well mimic the real-world scenes. Moreover, we
propose a novel model named Cross-modal contrAstive Product Transformer for
instance-level prodUct REtrieval (CAPTURE), that excels in capturing the
potential synergy between multi-modal inputs via a hybrid-stream transformer in
a self-supervised manner.CAPTURE generates discriminative instance features via
masked multi-modal learning as well as cross-modal contrastive pretraining and
it outperforms several SOTA cross-modal baselines. Extensive ablation studies
well demonstrate the effectiveness and the generalization capacity of our
model.
中文翻译:
Product1M:通过跨模态预训练实现弱监督实例级产品检索
如今,客户对电子商务的需求更加多样化,这给产品检索行业带来了更多的复杂性。以前的方法要么受制于单模态输入,要么执行有监督的图像级产品检索,因此无法适应存在大量弱注释多模态数据的现实场景。在本文中,我们研究了一种更现实的设置,旨在在细粒度产品类别中执行弱监督的多模态实例级产品检索。为了促进这项具有挑战性的任务的研究,我们贡献了 Product1M,它是用于现实世界实例级检索的最大的多模态化妆品数据集之一。值得注意的是,Product1M 包含超过 100 万个图像字幕对,由两种样本类型组成,即单产品和多产品样本,其中包括各种化妆品品牌。除了巨大的多样性之外,Product1M 还具有几个吸引人的特性,包括细粒度的类别、复杂的组合以及很好地模拟现实世界场景的模糊对应。此外,我们为实例级产品检索 (CAPTURE) 提出了一种名为 Cross-modal contrAstive Product Transformer 的新模型,该模型擅长以自监督方式通过混合流变换器捕获多模态输入之间的潜在协同作用。 CAPTURE通过屏蔽多模态学习以及跨模态对比预训练生成判别实例特征,并且它的性能优于几个 SOTA 跨模态基线。广泛的消融研究很好地证明了我们模型的有效性和泛化能力。除了巨大的多样性之外,Product1M 还具有几个吸引人的特性,包括细粒度的类别、复杂的组合以及很好地模拟现实世界场景的模糊对应。此外,我们为实例级产品检索 (CAPTURE) 提出了一种名为 Cross-modal contrAstive Product Transformer 的新模型,该模型擅长以自监督方式通过混合流变换器捕获多模态输入之间的潜在协同作用。 CAPTURE通过屏蔽多模态学习以及跨模态对比预训练生成判别实例特征,并且它的性能优于几个 SOTA 跨模态基线。广泛的消融研究很好地证明了我们模型的有效性和泛化能力。除了巨大的多样性之外,Product1M 还具有几个吸引人的特性,包括细粒度的类别、复杂的组合以及很好地模拟现实世界场景的模糊对应。此外,我们为实例级产品检索 (CAPTURE) 提出了一种名为 Cross-modal contrAstive Product Transformer 的新模型,该模型擅长以自监督方式通过混合流变换器捕获多模态输入之间的潜在协同作用。 CAPTURE通过屏蔽多模态学习以及跨模态对比预训练生成判别实例特征,并且它的性能优于几个 SOTA 跨模态基线。广泛的消融研究很好地证明了我们模型的有效性和泛化能力。Product1M 具有几个吸引人的特性,包括细粒度的类别、复杂的组合以及很好地模拟现实世界场景的模糊对应。此外,我们为实例级产品检索 (CAPTURE) 提出了一种名为 Cross-modal contrAstive Product Transformer 的新模型,该模型擅长以自监督方式通过混合流变换器捕获多模态输入之间的潜在协同作用。 CAPTURE通过屏蔽多模态学习以及跨模态对比预训练生成判别实例特征,并且它的性能优于几个 SOTA 跨模态基线。广泛的消融研究很好地证明了我们模型的有效性和泛化能力。Product1M 具有几个吸引人的特性,包括细粒度的类别、复杂的组合以及很好地模拟现实世界场景的模糊对应。此外,我们为实例级产品检索 (CAPTURE) 提出了一种名为 Cross-modal contrAstive Product Transformer 的新模型,该模型擅长以自监督方式通过混合流变换器捕获多模态输入之间的潜在协同作用。 CAPTURE通过屏蔽多模态学习以及跨模态对比预训练生成判别实例特征,并且它的性能优于几个 SOTA 跨模态基线。广泛的消融研究很好地证明了我们模型的有效性和泛化能力。我们为实例级产品检索 (CAPTURE) 提出了一种名为 Cross-modal contrAstive Product Transformer 的新模型,该模型擅长以自监督方式通过混合流变换器捕获多模态输入之间的潜在协同作用。 CAPTURE 生成判别力通过屏蔽多模态学习和跨模态对比预训练的实例特征,它优于几个 SOTA 跨模态基线。广泛的消融研究很好地证明了我们模型的有效性和泛化能力。我们为实例级产品检索 (CAPTURE) 提出了一种名为 Cross-modal contrAstive Product Transformer 的新模型,该模型擅长以自监督方式通过混合流变换器捕获多模态输入之间的潜在协同作用。 CAPTURE 生成判别式通过屏蔽多模态学习和跨模态对比预训练的实例特征,它优于几个 SOTA 跨模态基线。广泛的消融研究很好地证明了我们模型的有效性和泛化能力。CAPTURE 通过屏蔽多模态学习以及跨模态对比预训练生成判别实例特征,并且它的性能优于多个 SOTA 跨模态基线。广泛的消融研究很好地证明了我们模型的有效性和泛化能力。CAPTURE 通过屏蔽多模态学习以及跨模态对比预训练生成判别实例特征,并且它的性能优于多个 SOTA 跨模态基线。广泛的消融研究很好地证明了我们模型的有效性和泛化能力。
更新日期:2021-08-02
中文翻译:
Product1M:通过跨模态预训练实现弱监督实例级产品检索
如今,客户对电子商务的需求更加多样化,这给产品检索行业带来了更多的复杂性。以前的方法要么受制于单模态输入,要么执行有监督的图像级产品检索,因此无法适应存在大量弱注释多模态数据的现实场景。在本文中,我们研究了一种更现实的设置,旨在在细粒度产品类别中执行弱监督的多模态实例级产品检索。为了促进这项具有挑战性的任务的研究,我们贡献了 Product1M,它是用于现实世界实例级检索的最大的多模态化妆品数据集之一。值得注意的是,Product1M 包含超过 100 万个图像字幕对,由两种样本类型组成,即单产品和多产品样本,其中包括各种化妆品品牌。除了巨大的多样性之外,Product1M 还具有几个吸引人的特性,包括细粒度的类别、复杂的组合以及很好地模拟现实世界场景的模糊对应。此外,我们为实例级产品检索 (CAPTURE) 提出了一种名为 Cross-modal contrAstive Product Transformer 的新模型,该模型擅长以自监督方式通过混合流变换器捕获多模态输入之间的潜在协同作用。 CAPTURE通过屏蔽多模态学习以及跨模态对比预训练生成判别实例特征,并且它的性能优于几个 SOTA 跨模态基线。广泛的消融研究很好地证明了我们模型的有效性和泛化能力。除了巨大的多样性之外,Product1M 还具有几个吸引人的特性,包括细粒度的类别、复杂的组合以及很好地模拟现实世界场景的模糊对应。此外,我们为实例级产品检索 (CAPTURE) 提出了一种名为 Cross-modal contrAstive Product Transformer 的新模型,该模型擅长以自监督方式通过混合流变换器捕获多模态输入之间的潜在协同作用。 CAPTURE通过屏蔽多模态学习以及跨模态对比预训练生成判别实例特征,并且它的性能优于几个 SOTA 跨模态基线。广泛的消融研究很好地证明了我们模型的有效性和泛化能力。除了巨大的多样性之外,Product1M 还具有几个吸引人的特性,包括细粒度的类别、复杂的组合以及很好地模拟现实世界场景的模糊对应。此外,我们为实例级产品检索 (CAPTURE) 提出了一种名为 Cross-modal contrAstive Product Transformer 的新模型,该模型擅长以自监督方式通过混合流变换器捕获多模态输入之间的潜在协同作用。 CAPTURE通过屏蔽多模态学习以及跨模态对比预训练生成判别实例特征,并且它的性能优于几个 SOTA 跨模态基线。广泛的消融研究很好地证明了我们模型的有效性和泛化能力。Product1M 具有几个吸引人的特性,包括细粒度的类别、复杂的组合以及很好地模拟现实世界场景的模糊对应。此外,我们为实例级产品检索 (CAPTURE) 提出了一种名为 Cross-modal contrAstive Product Transformer 的新模型,该模型擅长以自监督方式通过混合流变换器捕获多模态输入之间的潜在协同作用。 CAPTURE通过屏蔽多模态学习以及跨模态对比预训练生成判别实例特征,并且它的性能优于几个 SOTA 跨模态基线。广泛的消融研究很好地证明了我们模型的有效性和泛化能力。Product1M 具有几个吸引人的特性,包括细粒度的类别、复杂的组合以及很好地模拟现实世界场景的模糊对应。此外,我们为实例级产品检索 (CAPTURE) 提出了一种名为 Cross-modal contrAstive Product Transformer 的新模型,该模型擅长以自监督方式通过混合流变换器捕获多模态输入之间的潜在协同作用。 CAPTURE通过屏蔽多模态学习以及跨模态对比预训练生成判别实例特征,并且它的性能优于几个 SOTA 跨模态基线。广泛的消融研究很好地证明了我们模型的有效性和泛化能力。我们为实例级产品检索 (CAPTURE) 提出了一种名为 Cross-modal contrAstive Product Transformer 的新模型,该模型擅长以自监督方式通过混合流变换器捕获多模态输入之间的潜在协同作用。 CAPTURE 生成判别力通过屏蔽多模态学习和跨模态对比预训练的实例特征,它优于几个 SOTA 跨模态基线。广泛的消融研究很好地证明了我们模型的有效性和泛化能力。我们为实例级产品检索 (CAPTURE) 提出了一种名为 Cross-modal contrAstive Product Transformer 的新模型,该模型擅长以自监督方式通过混合流变换器捕获多模态输入之间的潜在协同作用。 CAPTURE 生成判别式通过屏蔽多模态学习和跨模态对比预训练的实例特征,它优于几个 SOTA 跨模态基线。广泛的消融研究很好地证明了我们模型的有效性和泛化能力。CAPTURE 通过屏蔽多模态学习以及跨模态对比预训练生成判别实例特征,并且它的性能优于多个 SOTA 跨模态基线。广泛的消融研究很好地证明了我们模型的有效性和泛化能力。CAPTURE 通过屏蔽多模态学习以及跨模态对比预训练生成判别实例特征,并且它的性能优于多个 SOTA 跨模态基线。广泛的消融研究很好地证明了我们模型的有效性和泛化能力。