当前位置: X-MOL 学术Multimed. Tools Appl. › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
A resource conscious human action recognition framework using 26-layered deep convolutional neural network
Multimedia Tools and Applications ( IF 3.0 ) Pub Date : 2020-08-01 , DOI: 10.1007/s11042-020-09408-1
Muhammad Attique Khan , Yu-Dong Zhang , Sajid Ali Khan , Muhammad Attique , Amjad Rehman , Sanghyun Seo

Vision-based human action recognition (HAR) is a hot topic of research from the decade due to a few popular applications such as visual surveillance and robotics. For correct action recognition, various local and global points are requires known as features. These features modified during the variation in human movement. But due to a bit change in several human actions, the features of these actions are mixed that degrade the recognition performance. In this article, we design a new 26-layered Convolutional Neural Network (CNN) architecture for accurate complex action recognition. The features are extracted from the global average pooling layer and fully connected (FC) layer, and fused by a proposed high entropy-based approach. Further, we propose a feature selection method name Poisson distribution along with Univariate Measures (PDaUM). Few of fused CNN features are irrelevant, and few of them are redundant that makes the incorrect prediction among complex human actions. Therefore, the proposed PDaUM based approach selects only the strongest features that later passed to the Extreme Learning Machine (ELM) and Softmax for final recognition. Four datasets are using for experimental analysis - HMDB51 (51 classes), UCF Sports (10 classes), KTH (6 classes), and Weizmann (10 classes). On these datasets, the ELM classifier gives an improved performance as compared to a Softmax classifier. The achieved accuracy on each dataset is 81.4%, 99.2%, 98.3%, and 98.7%, respectively. Comparison with existing techniques, it is shown that the proposed architecture gives better performance in terms of accuracy and testing time.



中文翻译:

使用26层深度卷积神经网络的资源意识型人类动作识别框架

由于视觉监控和机器人等一些流行的应用,基于视觉的人体动作识别(HAR)是近十年来的研究热点。为了正确识别动作,需要将各种局部和全局点称为特征。这些特征在人类运动变化期间被修改。但是由于某些人为动作的某些变化,这些动作的特征混杂在一起,从而降低了识别性能。在本文中,我们设计了一种新的26层卷积神经网络(CNN)架构,用于精确的复杂动作识别。从全局平均池化层和完全连接(FC)层中提取特征,并通过提出的基于高熵的方法进行融合。此外,我们提出了特征选择方法名称泊松分布以及单变量测量(PDaUM)。很少有融合的CNN功能无关紧要,而很少有多余的功能可以在复杂的人类动作之间做出错误的预测。因此,提出的基于PDaUM的方法仅选择最强大的功能,这些功能随后传递给极限学习机(ELM)和Softmax进行最终识别。四个数据集用于实验分析-HMDB51(51类),UCF Sports(10类),KTH(6类)和Weizmann(10类)。在这些数据集上,与Softmax分类器相比,ELM分类器具有更高的性能。每个数据集的准确性分别为81.4%,99.2%,98.3%和98.7%。与现有技术的比较表明,所提出的体系结构在准确性和测试时间方面具有更好的性能。而且其中很少有多余的东西可以在复杂的人类动作中做出错误的预测。因此,提出的基于PDaUM的方法仅选择最强大的功能,这些功能随后传递给极限学习机(ELM)和Softmax进行最终识别。四个数据集用于实验分析-HMDB51(51类),UCF Sports(10类),KTH(6类)和Weizmann(10类)。在这些数据集上,与Softmax分类器相比,ELM分类器具有更高的性能。每个数据集的准确度分别为81.4%,99.2%,98.3%和98.7%。与现有技术的比较表明,所提出的体系结构在准确性和测试时间方面具有更好的性能。而且其中很少有多余的东西可以在复杂的人类动作中做出错误的预测。因此,提出的基于PDaUM的方法仅选择最强大的功能,这些功能随后传递给极限学习机(ELM)和Softmax进行最终识别。四个数据集用于实验分析-HMDB51(51类),UCF Sports(10类),KTH(6类)和Weizmann(10类)。在这些数据集上,与Softmax分类器相比,ELM分类器具有更高的性能。每个数据集的准确度分别为81.4%,99.2%,98.3%和98.7%。与现有技术的比较表明,所提出的体系结构在准确性和测试时间方面具有更好的性能。提出的基于PDaUM的方法仅选择最强大的功能,这些功能随后传递给Extreme Learning Machine(ELM)和Softmax进行最终识别。四个数据集用于实验分析-HMDB51(51类),UCF Sports(10类),KTH(6类)和Weizmann(10类)。在这些数据集上,与Softmax分类器相比,ELM分类器具有更高的性能。每个数据集的准确度分别为81.4%,99.2%,98.3%和98.7%。与现有技术的比较表明,所提出的体系结构在准确性和测试时间方面具有更好的性能。建议的基于PDaUM的方法仅选择最强大的功能,这些功能随后传递给Extreme Learning Machine(ELM)和Softmax进行最终识别。四个数据集用于实验分析-HMDB51(51类),UCF Sports(10类),KTH(6类)和Weizmann(10类)。在这些数据集上,与Softmax分类器相比,ELM分类器具有更高的性能。每个数据集的准确性分别为81.4%,99.2%,98.3%和98.7%。与现有技术的比较表明,所提出的体系结构在准确性和测试时间方面具有更好的性能。KTH(6个班)和Weizmann(10个班)。在这些数据集上,与Softmax分类器相比,ELM分类器具有更高的性能。每个数据集的准确度分别为81.4%,99.2%,98.3%和98.7%。与现有技术的比较表明,所提出的体系结构在准确性和测试时间方面具有更好的性能。KTH(6个班)和Weizmann(10个班)。在这些数据集上,与Softmax分类器相比,ELM分类器具有更高的性能。每个数据集的准确度分别为81.4%,99.2%,98.3%和98.7%。与现有技术的比较表明,所提出的体系结构在准确性和测试时间方面具有更好的性能。

更新日期:2020-08-01
down
wechat
bug