当前位置: X-MOL 学术Int. J. Comput. Vis. › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
Image-Based Synthesis for Deep 3D Human Pose Estimation
International Journal of Computer Vision ( IF 11.6 ) Pub Date : 2018-03-19 , DOI: 10.1007/s11263-018-1071-9
Grégory Rogez , Cordelia Schmid

This paper addresses the problem of 3D human pose estimation in the wild. A significant challenge is the lack of training data, i.e., 2D images of humans annotated with 3D poses. Such data is necessary to train state-of-the-art CNN architectures. Here, we propose a solution to generate a large set of photorealistic synthetic images of humans with 3D pose annotations. We introduce an image-based synthesis engine that artificially augments a dataset of real images with 2D human pose annotations using 3D motion capture data. Given a candidate 3D pose, our algorithm selects for each joint an image whose 2D pose locally matches the projected 3D pose. The selected images are then combined to generate a new synthetic image by stitching local image patches in a kinematically constrained manner. The resulting images are used to train an end-to-end CNN for full-body 3D pose estimation. We cluster the training data into a large number of pose classes and tackle pose estimation as a K-way classification problem. Such an approach is viable only with large training sets such as ours. Our method outperforms most of the published works in terms of 3D pose estimation in controlled environments (Human3.6M) and shows promising results for real-world images (LSP). This demonstrates that CNNs trained on artificial images generalize well to real images. Compared to data generated from more classical rendering engines, our synthetic images do not require any domain adaptation or fine-tuning stage.

中文翻译:

基于图像的深度 3D 人体姿势估计合成

本文解决了野外 3D 人体姿态估计的问题。一个重大挑战是缺乏训练数据,即用 3D 姿势注释的人类 2D 图像。这些数据对于训练最先进的 CNN 架构是必要的。在这里,我们提出了一种解决方案来生成大量具有 3D 姿势注释的人类逼真合成图像。我们引入了一种基于图像的合成引擎,该引擎使用 3D 运动捕捉数据人为地增加了具有 2D 人体姿势注释的真实图像数据集。给定一个候选 3D 姿势,我们的算法为每个关节选择一个图像,其 2D 姿势与投影的 3D 姿势局部匹配。然后通过以运动学约束的方式拼接局部图像块来组合所选图像以生成新的合成图像。生成的图像用于训练端到端 CNN 以进行全身 3D 姿态估计。我们将训练数据聚类为大量姿势类,并将姿势估计作为 K 路分类问题进行处理。这种方法仅适用于像我们这样的大型训练集。我们的方法在受控环境 (Human3.6M) 中的 3D 姿态估计方面优于大多数已发表的作品,并显示了真实世界图像 (LSP) 的有希望的结果。这表明在人工图像上训练的 CNN 可以很好地泛化到真实图像。与从更经典的渲染引擎生成的数据相比,我们的合成图像不需要任何域适应或微调阶段。这种方法仅适用于像我们这样的大型训练集。我们的方法在受控环境 (Human3.6M) 中的 3D 姿态估计方面优于大多数已发表的作品,并显示了真实世界图像 (LSP) 的有希望的结果。这表明在人工图像上训练的 CNN 可以很好地泛化到真实图像。与从更经典的渲染引擎生成的数据相比,我们的合成图像不需要任何域适应或微调阶段。这种方法仅适用于像我们这样的大型训练集。我们的方法在受控环境 (Human3.6M) 中的 3D 姿态估计方面优于大多数已发表的作品,并显示了真实世界图像 (LSP) 的有希望的结果。这表明在人工图像上训练的 CNN 可以很好地泛化到真实图像。与从更经典的渲染引擎生成的数据相比,我们的合成图像不需要任何域适应或微调阶段。
更新日期:2018-03-19
down
wechat
bug