当前位置: X-MOL 学术Comput. Vis. Image Underst. › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
Few-shot action recognition with implicit temporal alignment and pair similarity optimization
Computer Vision and Image Understanding ( IF 4.5 ) Pub Date : 2021-07-20 , DOI: 10.1016/j.cviu.2021.103250
Congqi Cao 1, 2 , Yajuan Li 1, 3 , Qinyi Lv 4 , Peng Wang 1, 2 , Yanning Zhang 1, 2
Affiliation  

Few-shot learning aims to recognize instances from novel classes with few labeled samples, which has great value in research and application. Although there has been a lot of work in this area recently, most of the existing work is based on image classification tasks. Video-based few-shot action recognition has not been explored well and remains challenging: (1) the differences of implementation details among different papers make a fair comparison difficult; (2) the wide variations and misalignment of temporal sequences make the video-level similarity comparison difficult; (3) the scarcity of labeled data makes the optimization difficult. To solve these problems, this paper presents (1) a specific setting to evaluate the performance of few-shot action recognition algorithms; (2) an implicit sequence-alignment algorithm for better video-level similarity comparison; (3) an advanced loss for few-shot learning to optimize pair similarity with limited data. Specifically, we propose a novel few-shot action recognition framework that uses long short-term memory following 3D convolutional layers for sequence modeling and alignment. Circle loss is introduced to maximize the within-class similarity and minimize the between-class similarity flexibly towards a more definite convergence target. Instead of using random or ambiguous experimental settings, we set a concrete criterion analogous to the standard image-based few-shot learning setting for few-shot action recognition evaluation. Extensive experiments on two datasets demonstrate the effectiveness of our proposed method.



中文翻译:

具有隐式时间对齐和对相似性优化的少镜头动作识别

小样本学习旨在从具有很少标记样本的新类中识别实例,具有很大的研究和应用价值。虽然最近在这方面有很多工作,但现有的大部分工作都是基于图像分类任务。基于视频的小镜头动作识别尚未得到很好的探索,并且仍然具有挑战性:(1)不同论文之间实现细节的差异使得公平比较变得困难;(2) 时间序列的大范围变化和错位使得视频级相似度比较困难;(3) 标记数据的稀缺性使得优化变得困难。为了解决这些问题,本文提出了(1)一个特定的设置来评估少镜头动作识别算法的性能;(2) 一种隐式序列比对算法,用于更好的视频级相似度比较;(3)少样本学习的高级损失,以优化有限数据的配对相似性。具体来说,我们提出了一种新颖的少镜头动作识别框架,该框架使用 3D 卷积层之后的长短期记忆进行序列建模和对齐。引入 Circle loss 以最大化类内相似度并灵活地最小化类间相似度,以实现更明确的收敛目标。我们没有使用随机或模糊的实验设置,而是设置了一个具体的标准,类似于标准的基于图像的小样本学习设置,用于小样本动作识别评估。在两个数据集上的大量实验证明了我们提出的方法的有效性。(3)少样本学习的高级损失,以优化有限数据的配对相似性。具体来说,我们提出了一种新颖的少镜头动作识别框架,该框架使用 3D 卷积层之后的长短期记忆进行序列建模和对齐。引入 Circle loss 以最大化类内相似度并灵活地最小化类间相似度,以实现更明确的收敛目标。我们没有使用随机或模糊的实验设置,而是设置了一个具体的标准,类似于标准的基于图像的小样本学习设置,用于小样本动作识别评估。在两个数据集上的大量实验证明了我们提出的方法的有效性。(3)少样本学习的高级损失,以优化有限数据的配对相似性。具体来说,我们提出了一种新颖的少镜头动作识别框架,该框架使用 3D 卷积层之后的长短期记忆进行序列建模和对齐。引入 Circle loss 以最大化类内相似度并灵活地最小化类间相似度,以实现更明确的收敛目标。我们没有使用随机或模糊的实验设置,而是设置了一个具体的标准,类似于标准的基于图像的小样本学习设置,用于小样本动作识别评估。在两个数据集上的大量实验证明了我们提出的方法的有效性。我们提出了一种新颖的少镜头动作识别框架,该框架使用 3D 卷积层之后的长短期记忆进行序列建模和对齐。引入 Circle loss 以最大化类内相似度并灵活地最小化类间相似度,以实现更明确的收敛目标。我们没有使用随机或模糊的实验设置,而是设置了一个具体的标准,类似于标准的基于图像的小样本学习设置,用于小样本动作识别评估。在两个数据集上的大量实验证明了我们提出的方法的有效性。我们提出了一种新颖的少镜头动作识别框架,该框架使用 3D 卷积层之后的长短期记忆进行序列建模和对齐。引入 Circle loss 以最大化类内相似度并灵活地最小化类间相似度,以实现更明确的收敛目标。我们没有使用随机或模糊的实验设置,而是设置了一个具体的标准,类似于标准的基于图像的小样本学习设置,用于小样本动作识别评估。在两个数据集上的大量实验证明了我们提出的方法的有效性。我们没有使用随机或模糊的实验设置,而是设置了一个具体的标准,类似于标准的基于图像的小样本学习设置,用于小样本动作识别评估。在两个数据集上的大量实验证明了我们提出的方法的有效性。我们没有使用随机或模糊的实验设置,而是设置了一个具体的标准,类似于标准的基于图像的小样本学习设置,用于小样本动作识别评估。在两个数据集上的大量实验证明了我们提出的方法的有效性。

更新日期:2021-07-27
down
wechat
bug