当前位置: X-MOL 学术Multimedia Syst. › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
Deep learning-based multi-modal approach using RGB and skeleton sequences for human activity recognition
Multimedia Systems ( IF 3.5 ) Pub Date : 2020-07-25 , DOI: 10.1007/s00530-020-00677-2
Pratishtha Verma , Animesh Sah , Rajeev Srivastava

The deep learning techniques have achieved great success in the application of human activity recognition (HAR). In this paper, we propose a technique for HAR that utilizes the RGB and skeleton information with the help of a convolutional neural network (Convnet) and long short-term memory (LSTM) as a recurrent neural network (RNN). The proposed method has two parts: first, motion representation images like motion history image (MHI) and motion energy image (MEI) have been created from the RGB videos. The convnet has been trained, using these images with feature-level fusion. Second, the skeleton data have been utilized with a proposed algorithm that develops skeleton intensity images, for three views (top, front and side). Each view is first analyzed by a convnet, that generates the set of feature maps, which are fused for further analysis. On top of convnet sub-networks, LSTM has been used to exploit the temporal dependency. The softmax scores from these two independent parts are later combined at the decision level. Apart from the given approach for HAR, this paper also presents a strategy that utilizes the concept of cyclic learning rate to develop a multi-modal neural network by training the model only once to make the system more efficient. The suggested approach privileges for the perfect utilization of RGB and skeleton data available from an RGB-D sensor. The proposed approach has been tested on three famous and challenging multimodal datasets which are UTD-MHAD, CAD-60 and NTU-RGB + D120. Results have shown that the stated method gives a satisfactory result as compared to the other state-of-the-art systems.

中文翻译:

基于深度学习的多模态方法,使用 RGB 和骨架序列进行人类活动识别

深度学习技术在人类活动识别(HAR)的应用中取得了巨大成功。在本文中,我们提出了一种 HAR 技术,该技术在卷积神经网络 (Convnet) 和长短期记忆 (LSTM) 的帮助下利用 RGB 和骨架信息作为循环神经网络 (RNN)。所提出的方法有两个部分:首先,已经从 RGB 视频创建了运动表示图像,如运动历史图像 (MHI) 和运动能量图像 (MEI)。卷积网络已经过训练,使用这些图像进行特征级融合。其次,骨架数据已与建议的算法一起使用,该算法为三个视图(顶部、正面和侧面)开发骨架强度图像。每个视图首先由一个 convnet 分析,它生成一组特征图,这些特征图被融合以供进一步分析。在 convnet 子网络之上,LSTM 已被用于利用时间依赖性。来自这两个独立部分的 softmax 分数稍后在决策级别进行组合。除了给定的 HAR 方法之外,本文还提出了一种策略,该策略利用循环学习率的概念,通过仅训练一次模型来开发多模态神经网络,从而使系统更高效。建议的方法可以完美利用 RGB-D 传感器提供的 RGB 和骨架数据。所提出的方法已经在三个著名且具有挑战性的多模态数据集上进行了测试,它们是 UTD-MHAD、CAD-60 和 NTU-RGB + D120。结果表明,与其他最先进的系统相比,所述方法给出了令人满意的结果。LSTM 已被用于利用时间依赖性。来自这两个独立部分的 softmax 分数稍后在决策级别进行组合。除了给定的 HAR 方法之外,本文还提出了一种策略,该策略利用循环学习率的概念,通过仅训练一次模型来开发多模态神经网络,从而使系统更高效。建议的方法可以完美利用 RGB-D 传感器提供的 RGB 和骨架数据。所提出的方法已经在三个著名且具有挑战性的多模态数据集上进行了测试,它们是 UTD-MHAD、CAD-60 和 NTU-RGB + D120。结果表明,与其他最先进的系统相比,所述方法给出了令人满意的结果。LSTM 已被用于利用时间依赖性。来自这两个独立部分的 softmax 分数稍后在决策级别进行组合。除了给定的 HAR 方法之外,本文还提出了一种策略,该策略利用循环学习率的概念,通过仅训练一次模型来开发多模态神经网络,使系统更高效。建议的方法可以完美利用 RGB-D 传感器提供的 RGB 和骨架数据。所提出的方法已经在三个著名且具有挑战性的多模态数据集上进行了测试,它们是 UTD-MHAD、CAD-60 和 NTU-RGB + D120。结果表明,与其他最先进的系统相比,所述方法给出了令人满意的结果。来自这两个独立部分的 softmax 分数稍后在决策级别进行组合。除了给定的 HAR 方法之外,本文还提出了一种策略,该策略利用循环学习率的概念,通过仅训练一次模型来开发多模态神经网络,从而使系统更高效。建议的方法可以完美利用 RGB-D 传感器提供的 RGB 和骨架数据。所提出的方法已经在三个著名且具有挑战性的多模态数据集上进行了测试,它们是 UTD-MHAD、CAD-60 和 NTU-RGB + D120。结果表明,与其他最先进的系统相比,所述方法给出了令人满意的结果。来自这两个独立部分的 softmax 分数稍后在决策级别进行组合。除了给定的 HAR 方法之外,本文还提出了一种策略,该策略利用循环学习率的概念,通过仅训练一次模型来开发多模态神经网络,使系统更高效。建议的方法可以完美利用 RGB-D 传感器提供的 RGB 和骨架数据。所提出的方法已经在三个著名且具有挑战性的多模态数据集上进行了测试,它们是 UTD-MHAD、CAD-60 和 NTU-RGB + D120。结果表明,与其他最先进的系统相比,所述方法给出了令人满意的结果。本文还提出了一种策略,该策略利用循环学习率的概念,通过仅训练一次模型来开发多模态神经网络,从而使系统更高效。建议的方法可以完美利用 RGB-D 传感器提供的 RGB 和骨架数据。所提出的方法已经在三个著名且具有挑战性的多模态数据集上进行了测试,它们是 UTD-MHAD、CAD-60 和 NTU-RGB + D120。结果表明,与其他最先进的系统相比,所述方法给出了令人满意的结果。本文还提出了一种策略,该策略利用循环学习率的概念,通过仅训练一次模型来开发多模态神经网络,从而使系统更高效。建议的方法可以完美利用 RGB-D 传感器提供的 RGB 和骨架数据。所提出的方法已经在三个著名且具有挑战性的多模态数据集上进行了测试,它们是 UTD-MHAD、CAD-60 和 NTU-RGB + D120。结果表明,与其他最先进的系统相比,所述方法给出了令人满意的结果。所提出的方法已经在三个著名且具有挑战性的多模态数据集上进行了测试,它们是 UTD-MHAD、CAD-60 和 NTU-RGB + D120。结果表明,与其他最先进的系统相比,所述方法给出了令人满意的结果。所提出的方法已经在三个著名且具有挑战性的多模态数据集上进行了测试,它们是 UTD-MHAD、CAD-60 和 NTU-RGB + D120。结果表明,与其他最先进的系统相比,所述方法给出了令人满意的结果。
更新日期:2020-07-25
down
wechat
bug