Pattern Recognition Letters ( IF 3.255 ) Pub Date : 2021-02-11 , DOI: 10.1016/j.patrec.2021.02.001 Yu Liu; Fan Yang; Dominique Ginhac
Interpreting human actions requires understanding the spatial and temporal context of the scenes. State-of-the-art action detectors based on Convolutional Neural Network (CNN) have demonstrated remarkable results by adopting two-stream or 3D CNN architectures. However, these methods typically operate in a non-real-time, ofline fashion due to system complexity to reason spatio-temporal information. Consequently, their high computational cost is not compliant with emerging real-world scenarios such as service robots or public surveillance where detection needs to take place at resource-limited edge devices. In this paper, we propose ACDnet, a compact action detection network targeting real-time edge computing which addresses both efficiency and accuracy. It intelligently exploits the temporal coherence between successive video frames to approximate their CNN features rather than naively extracting them. It also integrates memory feature aggregation from past video frames to enhance current detection stability, implicitly modeling long temporal cues over time. Experiments conducted on the public benchmark datasets UCF-24 and JHMDB-21 demonstrate that ACDnet, when integrated with the SSD detector, can robustly achieve detection well above real-time (75 FPS). At the same time, it retains reasonable accuracy (70.92 and 49.53 frame mAP) compared to other top-performing methods using far heavier configurations. Codes will be available at https://github.com/dginhac/ACDnet.
中文翻译:

ACDnet:一种基于流引导特征逼近和内存聚合的实时边缘计算动作检测网络
解释人类行为需要了解场景的时空背景。基于卷积神经网络(CNN)的最新动作检测器通过采用两流或3D CNN架构已展示出非凡的结果。然而,由于系统复杂性导致时空信息的原因,这些方法通常以非实时,离线的方式操作。因此,它们的高计算成本与新兴的现实世界场景不兼容,例如服务机器人或公共监视,这些场景需要在资源受限的边缘设备上进行检测。在本文中,我们提出了ACDnet,这是一种针对实时边缘计算的紧凑型动作检测网络,能够同时解决效率和准确性。它智能地利用连续视频帧之间的时间相干性来近似其CNN特征,而不是天真的提取它们。它还集成了过去视频帧中的存储器功能聚合,以增强当前检测的稳定性,隐式地对长时间的时间线索进行建模。在公开基准数据集UCF-24和JHMDB-21上进行的实验表明,与CDS检测器集成后,ACDnet可以可靠地实现远高于实时(75 FPS)的检测。同时,与使用重得多的配置的其他性能最高的方法相比,它保留了合理的精度(70.92和49.53帧mAP)。可以在https://github.com/dginhac/ACDnet上找到代码。它还集成了过去视频帧中的存储器功能聚合,以增强当前检测的稳定性,隐式地对长时间的时间线索进行建模。在公开基准数据集UCF-24和JHMDB-21上进行的实验表明,与CDS检测器集成后,ACDnet可以可靠地实现远高于实时(75 FPS)的检测。同时,与使用重得多的配置的其他性能最高的方法相比,它保留了合理的精度(70.92和49.53帧mAP)。可以在https://github.com/dginhac/ACDnet上找到代码。它还集成了过去视频帧中的存储器功能聚合,以增强当前检测的稳定性,隐式地对长时间的时间线索进行建模。在公开基准数据集UCF-24和JHMDB-21上进行的实验表明,与CDS检测器集成后,ACDnet可以可靠地实现远高于实时(75 FPS)的检测。同时,与使用重得多的配置的其他性能最高的方法相比,它保留了合理的精度(70.92和49.53帧mAP)。可以在https://github.com/dginhac/ACDnet上找到代码。同时,与使用重得多的配置的其他性能最高的方法相比,它保留了合理的精度(70.92和49.53帧mAP)。可以在https://github.com/dginhac/ACDnet上找到代码。同时,与使用重得多的配置的其他性能最高的方法相比,它保留了合理的精度(70.92和49.53帧mAP)。可以在https://github.com/dginhac/ACDnet上找到代码。