当前位置: X-MOL 学术Image Vis. Comput. › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
Collaborative knowledge distillation for incomplete multi-view action prediction
Image and Vision Computing ( IF 4.7 ) Pub Date : 2021-01-21 , DOI: 10.1016/j.imavis.2021.104111
Deepak Kumar , Chetan Kumar , Ming Shao

Predicting future actions is a key in visual understanding, surveillance, and human behavior analysis. Current methods for video-based prediction are primarily using single-view data, while in the real world multiple cameras and produced videos are readily available, which may potentially benefit the action prediction tasks. However, it may bring up a new challenge: subjects in the videos are more likely to be occluded by objects when captured from different angles, or suffer from signal jittering in transmission. To that end, in this paper we propose a novel student network called Collaborative Knowledge Distillation (CKD) to predict human actions with missing information under a multi-view setting, i.e., incomplete multi-view action prediction. First, we create a graph attention based teacher model capable of fusing multi-view video features for prediction task. Second, we construct a corruption pattern bank (CPB) to simulate various missing segments in multi-view video, and each student model will manage one pattern through privileged information and knowledge distillation. Third, to account for arbitrary missing video segments in real-world, the ensemble of student models will be developed to make a joint prediction. The proposed framework has been extensively evaluated on popular multi-view visual action datasets, including PKU-MMD and NTU-RGB to validate the effectiveness of our approach and to the best of our knowledge action prediction has not yet been explored in the multi-view setting.



中文翻译:

协作知识提炼用于不完整的多视图动作预测

预测未来的行动是视觉理解,监视和人类行为分析的关键。当前用于基于视频的预测的方法主要是使用单视图数据,而在现实世界中,随时可以使用多个摄像机和制作的视频,这可能会有益于动作预测任务。但是,这可能会带来新的挑战:从不同角度拍摄时,视频中的对象更容易被物体遮挡,或者在传输过程中出现信号抖动。为此,在本文中,我们提出了一种新颖的学生网络,称为协作知识蒸馏(CKD),以在多视图设置下预测缺少信息的人类行为,即不完整的多视图行为预测。第一,我们创建了一个基于图注意力的教师模型,该模型能够融合多视图视频功能以进行预测任务。其次,我们构建一个腐败模式库(CPB)以模拟多视图视频中的各种丢失片段,并且每个学生模型将通过特权信息和知识提炼来管理一种模式。第三,为了解决现实世界中任意丢失的视频片段,将开发学生模型的集合以进行联合预测。所提出的框架已在包括PKU-MMD和NTU-RGB在内的流行的多视图视觉动作数据集上进行了广泛评估,以验证我们方法的有效性,并且据我们所知,在多视图中尚未探索动作预测设置。我们构建了一个腐败模式库(CPB),以模拟多视图视频中的各种缺失片段,每个学生模型将通过特权信息和知识提炼来管理一种模式。第三,为了解决现实世界中任意丢失的视频片段,将开发学生模型的集合以进行联合预测。所提出的框架已在包括PKU-MMD和NTU-RGB在内的流行的多视图视觉动作数据集上进行了广泛评估,以验证我们方法的有效性,并且据我们所知,在多视图中尚未探索动作预测设置。我们构建了一个腐败模式库(CPB),以模拟多视图视频中的各种缺失片段,每个学生模型将通过特权信息和知识提炼来管理一种模式。第三,为了解决现实世界中任意丢失的视频片段,将开发学生模型的集合以进行联合预测。所提出的框架已在包括PKU-MMD和NTU-RGB在内的流行的多视图视觉动作数据集上进行了广泛评估,以验证我们方法的有效性,并且据我们所知,在多视图中尚未探索动作预测设置。将开发学生模型的集合以进行联合预测。所提出的框架已在包括PKU-MMD和NTU-RGB在内的流行的多视图视觉动作数据集上进行了广泛评估,以验证我们方法的有效性,并且据我们所知,在多视图中尚未探索动作预测设置。将开发学生模型的集合以进行联合预测。所提出的框架已在包括PKU-MMD和NTU-RGB在内的流行的多视图视觉动作数据集上进行了广泛评估,以验证我们方法的有效性,并且据我们所知,在多视图中尚未探索动作预测设置。

更新日期:2021-02-05
down
wechat
bug