当前位置: X-MOL 学术Int. J. Comput. Vis. › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
SportsCap: Monocular 3D Human Motion Capture and Fine-Grained Understanding in Challenging Sports Videos
International Journal of Computer Vision ( IF 11.6 ) Pub Date : 2021-08-04 , DOI: 10.1007/s11263-021-01486-4
Xin Chen 1, 2, 3 , Anqi Pang 1, 2, 3 , Yuexin Ma 1 , Lan Xu 1 , Jingyi Yu 1 , Wei Yang 4
Affiliation  

Markerless motion capture and understanding of professional non-daily human movements is an important yet unsolved task, which suffers from complex motion patterns and severe self-occlusion, especially for the monocular setting. In this paper, we propose SportsCap—the first approach for simultaneously capturing 3D human motions and understanding fine-grained actions from monocular challenging sports video input. Our approach utilizes the semantic and temporally structured sub-motion prior in the embedding space for motion capture and understanding in a data-driven multi-task manner. To enable robust capture under complex motion patterns, we propose an effective motion embedding module to recover both the implicit motion embedding and explicit 3D motion details via a corresponding mapping function as well as a sub-motion classifier. Based on such hybrid motion information, we introduce a multi-stream spatial-temporal graph convolutional network to predict the fine-grained semantic action attributes, and adopt a semantic attribute mapping block to assemble various correlated action attributes into a high-level action label for the overall detailed understanding of the whole sequence, so as to enable various applications like action assessment or motion scoring. Comprehensive experiments on both public and our proposed datasets show that with a challenging monocular sports video input, our novel approach not only significantly improves the accuracy of 3D human motion capture, but also recovers accurate fine-grained semantic action attribute.



中文翻译:

SportsCap:具有挑战性的体育视频中的单目 3D 人体动作捕捉和细粒度理解

无标记运动捕捉和理解专业的非日常人体运动是一项重要但尚未解决的任务,它具有复杂的运动模式和严重的自遮挡,尤其是对于单眼设置。在本文中,我们提出了 SportsCap——第一种同时捕获 3D 人体运动并从单眼具有挑战性的体育视频输入中理解细粒度动作的方法。我们的方法利用嵌入空间中的语义和时间结构子运动先验,以数据驱动的多任务方式进行运动捕捉和理解。为了在复杂运动模式下实现稳健捕获,我们提出了一个有效的运动嵌入模块,通过相应的映射函数和子运动分类器来恢复隐式运动嵌入和显式 3D 运动细节。基于这种混合运动信息,我们引入了多流时空图卷积网络来预测细粒度的语义动作属性,并采用语义属性映射块将各种相关的动作属性组装成高级动作标签,用于对整个序列的整体详细了解,从而实现各种应用,如动作评估或动作评分。在公共数据集和我们提出的数据集上的综合实验表明,对于具有挑战性的单目运动视频输入,我们的新方法不仅显着提高了 3D 人体运动捕捉的准确性,而且还恢复了准确的细粒度语义动作属性。我们引入了一个多流时空图卷积网络来预测细粒度的语义动作属性,并采用语义属性映射块将各种相关的动作属性组装成一个高级动作标签,以便对整体进行全面详细的了解序列,以便启用各种应用程序,如动作评估或动作评分。在公共数据集和我们提出的数据集上的综合实验表明,对于具有挑战性的单目运动视频输入,我们的新方法不仅显着提高了 3D 人体运动捕捉的准确性,而且还恢复了准确的细粒度语义动作属性。我们引入了一个多流时空图卷积网络来预测细粒度的语义动作属性,并采用语义属性映射块将各种相关的动作属性组装成一个高级动作标签,以便对整体进行全面详细的了解序列,以便启用各种应用程序,如动作评估或动作评分。在公共数据集和我们提出的数据集上的综合实验表明,对于具有挑战性的单眼运动视频输入,我们的新方法不仅显着提高了 3D 人体运动捕捉的准确性,而且还恢复了准确的细粒度语义动作属性。并采用语义属性映射块,将各种相关的动作属性组合成一个高级动作标签,以便对整个序列进行全面详细的理解,从而实现动作评估或动作评分等各种应用。在公共数据集和我们提出的数据集上的综合实验表明,对于具有挑战性的单目运动视频输入,我们的新方法不仅显着提高了 3D 人体运动捕捉的准确性,而且还恢复了准确的细粒度语义动作属性。并采用语义属性映射块,将各种相关的动作属性组合成一个高级动作标签,以便对整个序列进行全面详细的理解,从而实现动作评估或动作评分等各种应用。在公共数据集和我们提出的数据集上的综合实验表明,对于具有挑战性的单目运动视频输入,我们的新方法不仅显着提高了 3D 人体运动捕捉的准确性,而且还恢复了准确的细粒度语义动作属性。

更新日期:2021-08-04
down
wechat
bug