当前位置: X-MOL 学术Electronics › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
Unsupervised Domain Adaptive Person Re-Identification Method Based on Transformer
Electronics ( IF 2.6 ) Pub Date : 2022-09-27 , DOI: 10.3390/electronics11193082
Xiai Yan , Shengkai Ding , Wei Zhou , Weiqi Shi , Hua Tian

Person re-identification (ReID) is the problem of cross-camera target retrieval. The extraction of robust and discriminant features is the key factor in realizing the correct correlation of targets. A model based on convolutional neural networks (CNNs) can extract more robust image features. Still, it completes the extraction of images from local information to global information by continuously accumulating convolution layers. As a complex CNN, a vision transformer (ViT) captures global information from the beginning to extract more powerful features. This paper proposes an unsupervised domain adaptive person re-identification model (ViTReID) based on the vision transformer, taking the ViT model trained on ImageNet as the pre-training weight and a transformer encoder as the feature extraction network, which makes up for some defects of the CNN model. At the same time, the combined loss function of cross-entropy and triplet loss function combined with the center loss function is used to optimize the network; the person’s head is evaluated and trained as a local feature combined with the global feature of the whole body, focusing on the head, to enhance the head feature information. The experimental results show that ViTReID exceeds the baseline method (SSG) by 14% (Market1501 → MSMT17) in mean average precision (mAP). In MSMT17 → Market1501, ViTReID is 1.2% higher in rank-1 (R1) accuracy than a state-of-the-art method (SPCL); in PersonX → MSMT17, the mAP is 3.1% higher than that of the MMT-dbscan method, and in PersonX → Market1501, the mAP is 1.5% higher than that of the MMT-dbscan method.

中文翻译:

基于Transformer的无监督域自适应人物重识别方法

人员重新识别(ReID)是跨相机目标检索的问题。鲁棒性和判别性特征的提取是实现目标正确关联的关键因素。基于卷积神经网络 (CNN) 的模型可以提取更稳健的图像特征。尽管如此,它还是通过不断积累卷积层来完成图像从局部信息到全局信息的提取。作为一个复杂的 CNN,视觉转换器 (ViT) 从一开始就捕获全局信息以提取更强大的特征。本文提出了一种基于视觉变换器的无监督域自适应行人重识别模型(ViTReID),以在ImageNet上训练的ViT模型作为预训练权重,以变换器编码器作为特征提取网络,弥补了CNN模型的一些缺陷。同时,使用交叉熵和三元组损失函数结合中心损失函数的组合损失函数对网络进行优化;人的头部作为局部特征结合全身全局特征进行评估训练,重点关注头部,增强头部特征信息。实验结果表明,ViTReID 在平均精度 (mAP) 上超过基线方法 (SSG) 14% (Market1501 → MSMT17)。在 MSMT17 → Market1501 中,ViTReID 的 rank-1 (R1) 精度比最先进的方法 (SPCL) 高 1.2%;在 PersonX → MSMT17 中,mAP 比 MMT-dbscan 方法高 3.1%,在 PersonX → Market1501 中,mAP 比 MMT-dbscan 方法高 1.5%。使用交叉熵和三元组损失函数结合中心损失函数的组合损失函数来优化网络;人的头部作为局部特征结合全身全局特征进行评估训练,重点关注头部,增强头部特征信息。实验结果表明,ViTReID 在平均精度 (mAP) 上超过基线方法 (SSG) 14% (Market1501 → MSMT17)。在 MSMT17 → Market1501 中,ViTReID 的 rank-1 (R1) 精度比最先进的方法 (SPCL) 高 1.2%;在 PersonX → MSMT17 中,mAP 比 MMT-dbscan 方法高 3.1%,在 PersonX → Market1501 中,mAP 比 MMT-dbscan 方法高 1.5%。使用交叉熵和三元组损失函数结合中心损失函数的组合损失函数来优化网络;人的头部作为局部特征结合全身全局特征进行评估训练,重点关注头部,增强头部特征信息。实验结果表明,ViTReID 在平均精度 (mAP) 上超过基线方法 (SSG) 14% (Market1501 → MSMT17)。在 MSMT17 → Market1501 中,ViTReID 的 rank-1 (R1) 精度比最先进的方法 (SPCL) 高 1.2%;在 PersonX → MSMT17 中,mAP 比 MMT-dbscan 方法高 3.1%,在 PersonX → Market1501 中,mAP 比 MMT-dbscan 方法高 1.5%。人的头部作为局部特征结合全身全局特征进行评估训练,重点关注头部,增强头部特征信息。实验结果表明,ViTReID 在平均精度 (mAP) 上超过基线方法 (SSG) 14% (Market1501 → MSMT17)。在 MSMT17 → Market1501 中,ViTReID 的 rank-1 (R1) 精度比最先进的方法 (SPCL) 高 1.2%;在 PersonX → MSMT17 中,mAP 比 MMT-dbscan 方法高 3.1%,在 PersonX → Market1501 中,mAP 比 MMT-dbscan 方法高 1.5%。人的头部作为局部特征结合全身全局特征进行评估训练,重点关注头部,增强头部特征信息。实验结果表明,ViTReID 在平均精度 (mAP) 上超过基线方法 (SSG) 14% (Market1501 → MSMT17)。在 MSMT17 → Market1501 中,ViTReID 的 rank-1 (R1) 精度比最先进的方法 (SPCL) 高 1.2%;在 PersonX → MSMT17 中,mAP 比 MMT-dbscan 方法高 3.1%,在 PersonX → Market1501 中,mAP 比 MMT-dbscan 方法高 1.5%。实验结果表明,ViTReID 在平均精度 (mAP) 上超过基线方法 (SSG) 14% (Market1501 → MSMT17)。在 MSMT17 → Market1501 中,ViTReID 的 rank-1 (R1) 精度比最先进的方法 (SPCL) 高 1.2%;在 PersonX → MSMT17 中,mAP 比 MMT-dbscan 方法高 3.1%,在 PersonX → Market1501 中,mAP 比 MMT-dbscan 方法高 1.5%。实验结果表明,ViTReID 在平均精度 (mAP) 上超过基线方法 (SSG) 14% (Market1501 → MSMT17)。在 MSMT17 → Market1501 中,ViTReID 的 rank-1 (R1) 精度比最先进的方法 (SPCL) 高 1.2%;在 PersonX → MSMT17 中,mAP 比 MMT-dbscan 方法高 3.1%,在 PersonX → Market1501 中,mAP 比 MMT-dbscan 方法高 1.5%。
更新日期:2022-09-27
down
wechat
bug