Few-shot action recognition with implicit temporal alignment and pair similarity optimization,Computer Vision and Image Understanding

当前位置： X-MOL 学术 › Comput. Vis. Image Underst. › 论文详情

Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)

Few-shot action recognition with implicit temporal alignment and pair similarity optimization
Computer Vision and Image Understanding ( IF 4.5 ) Pub Date : 2021-07-20 , DOI: 10.1016/j.cviu.2021.103250
Congqi Cao _{1,

2} , Yajuan Li _{1,

3} , Qinyi Lv ₄ , Peng Wang _{1,

2} , Yanning Zhang _{1,

2}

Affiliation

Few-shot learning aims to recognize instances from novel classes with few labeled samples, which has great value in research and application. Although there has been a lot of work in this area recently, most of the existing work is based on image classification tasks. Video-based few-shot action recognition has not been explored well and remains challenging: (1) the differences of implementation details among different papers make a fair comparison difficult; (2) the wide variations and misalignment of temporal sequences make the video-level similarity comparison difficult; (3) the scarcity of labeled data makes the optimization difficult. To solve these problems, this paper presents (1) a specific setting to evaluate the performance of few-shot action recognition algorithms; (2) an implicit sequence-alignment algorithm for better video-level similarity comparison; (3) an advanced loss for few-shot learning to optimize pair similarity with limited data. Specifically, we propose a novel few-shot action recognition framework that uses long short-term memory following 3D convolutional layers for sequence modeling and alignment. Circle loss is introduced to maximize the within-class similarity and minimize the between-class similarity flexibly towards a more definite convergence target. Instead of using random or ambiguous experimental settings, we set a concrete criterion analogous to the standard image-based few-shot learning setting for few-shot action recognition evaluation. Extensive experiments on two datasets demonstrate the effectiveness of our proposed method.

中文翻译：

具有隐式时间对齐和对相似性优化的少镜头动作识别

小样本学习旨在从具有很少标记样本的新类中识别实例，具有很大的研究和应用价值。虽然最近在这方面有很多工作，但现有的大部分工作都是基于图像分类任务。基于视频的小镜头动作识别尚未得到很好的探索，并且仍然具有挑战性：（1）不同论文之间实现细节的差异使得公平比较变得困难；(2) 时间序列的大范围变化和错位使得视频级相似度比较困难；(3) 标记数据的稀缺性使得优化变得困难。为了解决这些问题，本文提出了（1）一个特定的设置来评估少镜头动作识别算法的性能；(2) 一种隐式序列比对算法，用于更好的视频级相似度比较；（3）少样本学习的高级损失，以优化有限数据的配对相似性。具体来说，我们提出了一种新颖的少镜头动作识别框架，该框架使用 3D 卷积层之后的长短期记忆进行序列建模和对齐。引入 Circle loss 以最大化类内相似度并灵活地最小化类间相似度，以实现更明确的收敛目标。我们没有使用随机或模糊的实验设置，而是设置了一个具体的标准，类似于标准的基于图像的小样本学习设置，用于小样本动作识别评估。在两个数据集上的大量实验证明了我们提出的方法的有效性。（3）少样本学习的高级损失，以优化有限数据的配对相似性。具体来说，我们提出了一种新颖的少镜头动作识别框架，该框架使用 3D 卷积层之后的长短期记忆进行序列建模和对齐。引入 Circle loss 以最大化类内相似度并灵活地最小化类间相似度，以实现更明确的收敛目标。我们没有使用随机或模糊的实验设置，而是设置了一个具体的标准，类似于标准的基于图像的小样本学习设置，用于小样本动作识别评估。在两个数据集上的大量实验证明了我们提出的方法的有效性。（3）少样本学习的高级损失，以优化有限数据的配对相似性。具体来说，我们提出了一种新颖的少镜头动作识别框架，该框架使用 3D 卷积层之后的长短期记忆进行序列建模和对齐。引入 Circle loss 以最大化类内相似度并灵活地最小化类间相似度，以实现更明确的收敛目标。我们没有使用随机或模糊的实验设置，而是设置了一个具体的标准，类似于标准的基于图像的小样本学习设置，用于小样本动作识别评估。在两个数据集上的大量实验证明了我们提出的方法的有效性。我们提出了一种新颖的少镜头动作识别框架，该框架使用 3D 卷积层之后的长短期记忆进行序列建模和对齐。引入 Circle loss 以最大化类内相似度并灵活地最小化类间相似度，以实现更明确的收敛目标。我们没有使用随机或模糊的实验设置，而是设置了一个具体的标准，类似于标准的基于图像的小样本学习设置，用于小样本动作识别评估。在两个数据集上的大量实验证明了我们提出的方法的有效性。我们提出了一种新颖的少镜头动作识别框架，该框架使用 3D 卷积层之后的长短期记忆进行序列建模和对齐。引入 Circle loss 以最大化类内相似度并灵活地最小化类间相似度，以实现更明确的收敛目标。我们没有使用随机或模糊的实验设置，而是设置了一个具体的标准，类似于标准的基于图像的小样本学习设置，用于小样本动作识别评估。在两个数据集上的大量实验证明了我们提出的方法的有效性。我们没有使用随机或模糊的实验设置，而是设置了一个具体的标准，类似于标准的基于图像的小样本学习设置，用于小样本动作识别评估。在两个数据集上的大量实验证明了我们提出的方法的有效性。我们没有使用随机或模糊的实验设置，而是设置了一个具体的标准，类似于标准的基于图像的小样本学习设置，用于小样本动作识别评估。在两个数据集上的大量实验证明了我们提出的方法的有效性。

更新日期：2021-07-27

点击分享查看原文

点击收藏

公开下载

阅读更多本刊最新论文本刊介绍/投稿指南

全部期刊列表>>