当前位置: X-MOL 学术arXiv.cs.CV › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
为时间动作本地化建模多标签动作相关性
arXiv - CS - Computer Vision and Pattern Recognition Pub Date : 2021-03-04 , DOI: arxiv-2103.03027
Praveen Tirupattur, Kevin Duarte, Yogesh Rawat, Mubarak Shah

现实世界中的视频包含许多复杂的动作,动作类之间具有固有的关系。在这项工作中,我们提出了一种基于注意力的架构,该架构为未修剪视频中的时间动作本地化任务建模了这些动作关系。与利用动作的视频级同时发生的先前作品相反,我们区分了在相同时间步长发生的动作与在不同时间步长发生的动作(即彼此之前或之后的动作)之间的关系。我们将这些不同的关系定义为动作依赖项。我们建议通过在新颖的基于注意力的多标签动作相关性(MLAD)层中对这些动作相关性进行建模来提高动作本地化性能。MLAD层包含两个分支:同现依赖分支和时间依赖分支分别对同现动作依赖和时间动作依赖进行建模。我们观察到,用于多标签分类的现有指标并未明确衡量对动作依存关系建模的程度,因此,我们提出了一种新颖的指标,该指标考虑了动作类之间的共现和时间依存关系。通过经验评估和广泛分析,我们在f-mAP和我们提出的指标方面,显示了在多标签动作本地化基准(MultiTHUMOS和Charades)上,与最新方法相比,性能得到了改善。我们观察到,用于多标签分类的现有指标并未明确衡量对动作依存关系建模的程度,因此,我们提出了一种新颖的指标,该指标考虑了动作类之间的共现和时间依存关系。通过经验评估和广泛分析,我们在f-mAP和我们提出的指标方面,显示了在多标签动作本地化基准(MultiTHUMOS和Charades)上,与最新方法相比,性能得到了改善。我们观察到,用于多标签分类的现有指标并未明确衡量对动作依存关系建模的程度,因此,我们提出了一种新颖的指标,该指标考虑了动作类之间的共现和时间依存关系。通过经验评估和广泛分析,我们在f-mAP和我们提出的指标方面,显示了在多标签动作本地化基准(MultiTHUMOS和Charades)上,与最新方法相比,性能得到了改善。



"点击查看英文标题和摘要"

更新日期:2021-03-05
down
wechat
bug