当前位置: X-MOL 学术Pattern Recogn. › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
Play and Rewind: Context-aware Video Temporal Action Proposals
Pattern Recognition ( IF 7.5 ) Pub Date : 2020-11-01 , DOI: 10.1016/j.patcog.2020.107477
Lianli Gao , Tao Li , Jingkuan Song , Zhou Zhao , Heng Tao Shen

Abstract In this paper, we investigate the problem of Temporal Action Proposal (TAP) generation, which plays a fundamental role in large-scale untrimmed video analysis but remains largely unsolved. Most of the prior works proposed the temporal actions by predicting the temporal boundaries or actionness scores of video units. Nevertheless, context information among surrounding video units has not been adequately explored, which may result in severe loss of information. In this work, we propose a context-aware temporal action proposal network which makes full use of the contextual information in two aspects: 1) To generate initial proposals, we design a Bi-directional Parallel LSTMs to extract the visual features of a video unit by considering its contextual information. Therefore, the prediction of temporal boundaries and actionness scores will be more accurate because it knows what happened in the past and what will happen in the future; and 2) To refine the initial proposals, we design an action-attention based re-ranking network which considers both surrounding proposal and initial actionness scores to assign true action proposals with high confidence scores. Extensive experiments are conducted on two challenging datasets for both temporal action proposal generation and detection tasks, demonstrating the effectiveness of the proposed approach. In particular, on THUMOS’14 dataset, our method significantly surpasses state-of-the-art methods by 7.73% on AR@50. Our code is released at: https://github.com/Rheelt/TAPG .

中文翻译:

播放和倒带:上下文感知视频时间动作建议

摘要在本文中,我们研究了时间动作建议 (TAP) 生成问题,该问题在大规模未修剪视频分析中起着基础性作用,但在很大程度上仍未解决。大多数先前的工作通过预测视频单元的时间边界或动作分数来提出时间动作。然而,周围视频单元之间的上下文信息尚未得到充分探索,这可能会导致信息严重丢失。在这项工作中,我们提出了一个上下文感知时间动作提议网络,它在两个方面充分利用了上下文信息:1)为了生成初始提议,我们设计了一个双向并行 LSTM 来提取视频单元的视觉特征通过考虑其上下文信息。所以,时间边界和动作性分数的预测会更准确,因为它知道过去发生了什么以及将来会发生什么;2)为了改进初始提议,我们设计了一个基于动作注意的重新排序网络,该网络同时考虑了周围提议和初始动作分数,以分配具有高置信度分数的真实动作提议。对两个具有挑战性的数据集进行了大量实验,用于时间动作建议生成和检测任务,证明了所提出方法的有效性。特别是,在 THUMOS'14 数据集上,我们的方法在 AR@50 上显着超过了最先进的方法 7.73%。我们的代码发布在:https://github.com/Rheelt/TAPG。2)为了改进初始提议,我们设计了一个基于动作注意的重新排序网络,该网络同时考虑了周围提议和初始动作分数,以分配具有高置信度分数的真实动作提议。对两个具有挑战性的数据集进行了大量实验,用于时间动作建议生成和检测任务,证明了所提出方法的有效性。特别是,在 THUMOS'14 数据集上,我们的方法在 AR@50 上显着超过了最先进的方法 7.73%。我们的代码发布在:https://github.com/Rheelt/TAPG。2)为了改进初始提议,我们设计了一个基于动作注意的重新排序网络,该网络同时考虑了周围提议和初始动作分数,以分配具有高置信度分数的真实动作提议。对两个具有挑战性的数据集进行了大量实验,用于时间动作建议生成和检测任务,证明了所提出方法的有效性。特别是,在 THUMOS'14 数据集上,我们的方法在 AR@50 上显着超过了最先进的方法 7.73%。我们的代码发布在:https://github.com/Rheelt/TAPG。对两个具有挑战性的数据集进行了大量实验,用于时间动作建议生成和检测任务,证明了所提出方法的有效性。特别是,在 THUMOS'14 数据集上,我们的方法在 AR@50 上显着超过了最先进的方法 7.73%。我们的代码发布在:https://github.com/Rheelt/TAPG。对两个具有挑战性的数据集进行了大量实验,用于时间动作建议生成和检测任务,证明了所提出方法的有效性。特别是,在 THUMOS'14 数据集上,我们的方法在 AR@50 上显着超过了最先进的方法 7.73%。我们的代码发布在:https://github.com/Rheelt/TAPG。
更新日期:2020-11-01
down
wechat
bug