当前位置: X-MOL 学术Int. J. Comput. Vis. › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
Towards Image-to-Video Translation: A Structure-Aware Approach via Multi-stage Generative Adversarial Networks
International Journal of Computer Vision ( IF 19.5 ) Pub Date : 2020-04-28 , DOI: 10.1007/s11263-020-01328-9
Long Zhao , Xi Peng , Yu Tian , Mubbasir Kapadia , Dimitris N. Metaxas

In this paper, we consider the problem of image-to-video translation, where one or a set of input images are translated into an output video which contains motions of a single object. Especially, we focus on predicting motions conditioned by high-level structures, such as facial expression and human pose. Recent approaches are either driven by structural conditions or temporal-based. Condition-driven approaches typically train transformation networks to generate future frames conditioned on the predicted structural sequence. Temporal-based approaches, on the other hand, have shown that short high-quality motions can be generated using 3D convolutional networks with temporal knowledge learned from massive training data. In this work, we combine the benefits of both approaches and propose a two-stage generative framework where videos are forecast from the structural sequence and then refined by temporal signals. To model motions more efficiently in the forecasting stage, we train networks with dense connections to learn residual motions between the current and future frames, which avoids learning motion-irrelevant details. To ensure temporal consistency in the refining stage, we adopt the ranking loss for adversarial training. We conduct extensive experiments on two image-to-video translation tasks: facial expression retargeting and human pose forecasting. Superior results over the state of the art on both tasks demonstrate the effectiveness of our approach.

中文翻译:

迈向图像到视频的翻译:通过多阶段生成对抗网络的结构感知方法

在本文中,我们考虑图像到视频的转换问题,其中一个或一组输入图像被转换为​​包含单个对象运动的输出视频。特别是,我们专注于预测由高级结构(例如面部表情和人体姿势)所决定的运动。最近的方法要么由结构条件驱动,要么基于时间。条件驱动方法通常训练转换网络以生成以预测的结构序列为条件的未来帧。另一方面,基于时间的方法表明,可以使用 3D 卷积网络和从大量训练数据中学习到的时间知识来生成短的高质量运动。在这项工作中,我们结合了两种方法的优点,并提出了一个两阶段生成框架,其中从结构序列预测视频,然后通过时间信号进行细化。为了在预测阶段更有效地建模运动,我们训练具有密集连接的网络来学习当前帧和未来帧之间的残余运动,从而避免学习与运动无关的细节。为了确保精炼阶段的时间一致性,我们采用排名损失进行对抗训练。我们对两个图像到视频的翻译任务进行了广泛的实验:面部表情重定向和人体姿势预测。在这两项任务上,优于最先进技术的结果证明了我们方法的有效性。为了在预测阶段更有效地建模运动,我们训练具有密集连接的网络来学习当前帧和未来帧之间的残余运动,从而避免学习与运动无关的细节。为了确保精炼阶段的时间一致性,我们采用排名损失进行对抗训练。我们对两个图像到视频的翻译任务进行了广泛的实验:面部表情重定向和人体姿势预测。在这两项任务上,优于最先进技术的结果证明了我们方法的有效性。为了在预测阶段更有效地建模运动,我们训练具有密集连接的网络来学习当前帧和未来帧之间的残余运动,从而避免学习与运动无关的细节。为了确保精炼阶段的时间一致性,我们采用排名损失进行对抗训练。我们对两个图像到视频的翻译任务进行了广泛的实验:面部表情重定向和人体姿势预测。在这两项任务上,优于最先进技术的结果证明了我们方法的有效性。我们对两个图像到视频的翻译任务进行了广泛的实验:面部表情重定向和人体姿势预测。在这两项任务上,优于最先进技术的结果证明了我们方法的有效性。我们对两个图像到视频的翻译任务进行了广泛的实验:面部表情重定向和人体姿势预测。在这两项任务上,优于最先进技术的结果证明了我们方法的有效性。
更新日期:2020-04-28
down
wechat
bug