当前位置: X-MOL 学术Multimedia Syst. › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
Integrating Gaussian mixture model and dilated residual network for action recognition in videos
Multimedia Systems ( IF 3.9 ) Pub Date : 2020-08-20 , DOI: 10.1007/s00530-020-00683-4
Ming Fang , Xiaoying Bai , Jianwei Zhao , Fengqin Yang , Chih-Cheng Hung , Shuhua Liu

Action recognition in video is one of the important applications in computer vision. In recent years, the two-stream architecture has made significant progress in action recognition, but it has not systematically explored spatial–temporal features. Therefore, this paper proposes an integrated approach using Gaussian mixture model (GMM) and dilated convolution residual network (GD-RN) for action recognition. This method uses ResNet-101 as spatial and temporal stream ConvNet. On the one hand, this paper first sends the action video into the GMM for background subtraction and then sends the video marking the action profile to ResNet-101 for identification and classification. Compared with the baseline, ConvNet takes the original RGB image as input, which not only reduces the complexity of the video background, but also reduces the amount of computation of the learning space information. On the other hand, using the stacked optical flow images as the input of the ResNet-101 added to the dilated convolution, the convolution receptive field is expanded without lowering the resolution of the optical flow image, thereby improving the classification accuracy. The two ConvNet-independent learning spatial and temporal features of the GD-RN network finally fine-tune and fuse the spatio-temporal features to obtain the final action recognition accuracy. The action recognition method proposed in this paper is tested on the challenging UCF101 and HMDB51 datasets, and accuracy rates of 91.3% and 62.4%, respectively, are obtained, which proves the proposed method with the competitive results.

中文翻译:

集成高斯混合模型和扩张残差网络用于视频中的动作识别

视频中的动作识别是计算机视觉中的重要应用之一。近年来,双流架构在动作识别方面取得了重大进展,但尚未系统地探索时空特征。因此,本文提出了一种使用高斯混合模型(GMM)和扩张卷积残差网络(GD-RN)进行动作识别的综合方法。该方法使用 ResNet-101 作为空间和时间流 ConvNet。一方面,本文首先将动作视频发送到 GMM 进行背景减除,然后将标记动作配置文件的视频发送到 ResNet-101 进行识别和分类。与baseline相比,ConvNet以原始RGB图像作为输入,不仅降低了视频背景的复杂度,同时也减少了学习空间信息的计算量。另一方面,使用堆叠的光流图像作为 ResNet-101 的输入加入空洞卷积,在不降低光流图像分辨率的情况下扩大卷积感受野,从而提高分类精度。GD-RN网络的两个独立于ConvNet的学习时空特征最终微调融合时空特征,获得最终的动作识别精度。本文提出的动作识别方法在具有挑战性的 UCF101 和 HMDB51 数据集上进行了测试,准确率分别为 91.3% 和 62.4%,证明了该方法具有竞争性的结果。使用堆叠的光流图像作为 ResNet-101 的输入添加到扩张卷积中,在不降低光流图像分辨率的情况下扩大卷积感受野,从而提高分类精度。GD-RN网络的两个独立于ConvNet的学习时空特征最终微调融合时空特征,获得最终的动作识别精度。本文提出的动作识别方法在具有挑战性的 UCF101 和 HMDB51 数据集上进行了测试,准确率分别为 91.3% 和 62.4%,证明了该方法具有竞争性的结果。使用堆叠的光流图像作为 ResNet-101 的输入添加到扩张卷积中,在不降低光流图像分辨率的情况下扩大卷积感受野,从而提高分类精度。GD-RN网络的两个独立于ConvNet的学习时空特征最终微调融合时空特征,获得最终的动作识别精度。本文提出的动作识别方法在具有挑战性的 UCF101 和 HMDB51 数据集上进行了测试,准确率分别为 91.3% 和 62.4%,证明了该方法具有竞争性的结果。在不降低光流图像分辨率的情况下扩大卷积感受野,从而提高分类精度。GD-RN网络的两个独立于ConvNet的学习时空特征最终微调融合时空特征,获得最终的动作识别精度。本文提出的动作识别方法在具有挑战性的 UCF101 和 HMDB51 数据集上进行了测试,准确率分别为 91.3% 和 62.4%,证明了该方法具有竞争性的结果。在不降低光流图像分辨率的情况下扩大卷积感受野,从而提高分类精度。GD-RN网络的两个独立于ConvNet的学习时空特征最终微调融合时空特征,获得最终的动作识别精度。本文提出的动作识别方法在具有挑战性的 UCF101 和 HMDB51 数据集上进行了测试,准确率分别为 91.3% 和 62.4%,证明了该方法具有竞争性的结果。
更新日期:2020-08-20
down
wechat
bug