GIF: Generative Interpretable Faces,arXiv - CS - Graphics

当前位置： X-MOL 学术 › arXiv.cs.GR › 论文详情

Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)

GIF: Generative Interpretable Faces
arXiv - CS - Graphics Pub Date : 2020-08-31 , DOI: arxiv-2009.00149
Partha Ghosh, Pravir Singh Gupta, Roy Uziel, Anurag Ranjan, Michael Black, Timo Bolkart

Photo-realistic visualization and animation of expressive human faces have been a long standing challenge. On one end of the spectrum, 3D face modeling methods provide parametric control but tend to generate unrealistic images, while on the other end, generative 2D models like GANs (Generative Adversarial Networks) output photo-realistic face images, but lack explicit control. Recent methods gain partial control, either by attempting to disentangle different factors in an unsupervised manner, or by adding control post hoc to a pre-trained model. Trained GANs without pre-defined control, however, may entangle factors that are hard to undo later. To guarantee some disentanglement that provides us with desired kinds of control, we train our generative model conditioned on pre-defined control parameters. Specifically, we condition StyleGAN2 on FLAME, a generative 3D face model. However, we found out that a naive conditioning on FLAME parameters yields rather unsatisfactory results. Instead we render out geometry and photo-metric details of the FLAME mesh and use these for conditioning instead. This gives us a generative 2D face model named GIF (Generative Interpretable Faces) that shares FLAME's parametric control. Given FLAME parameters for shape, pose, and expressions, parameters for appearance and lighting, and an additional style vector, GIF outputs photo-realistic face images. To evaluate how well GIF follows its conditioning and the impact of different design choices, we perform a perceptual study. The code and trained model are publicly available for research purposes at https://github.com/ParthaEth/GIF.

中文翻译：

GIF：生成可解释的面孔

富有表现力的人脸的逼真可视化和动画一直是一个长期存在的挑战。一方面，3D 人脸建模方法提供参数控制，但往往会生成不真实的图像，而另一方面，像 GAN（生成对抗网络）这样的生成 2D 模型输出逼真的人脸图像，但缺乏明确的控制。最近的方法通过尝试以无监督的方式解开不同的因素，或者通过向预训练模型添加事后控制来获得部分控制。然而，没有预定义控制的训练过的 GAN 可能会纠缠在以后难以撤消的因素中。为了保证提供给我们所需类型控制的一些解开，我们以预定义的控制参数为条件训练我们的生成模型。具体来说，我们在 FLAME 上调节 StyleGAN2，生成的 3D 人脸模型。然而，我们发现对 FLAME 参数的幼稚调节会产生相当不令人满意的结果。相反，我们渲染出 FLAME 网格的几何和光度测量细节，并将它们用于调节。这为我们提供了一个名为 GIF（生成可解释人脸）的生成 2D 人脸模型，该模型共享 FLAME 的参数化控制。给定形状、姿势和表情的 FLAME 参数、外观和照明的参数以及额外的样式矢量，GIF 输出逼真的面部图像。为了评估 GIF 遵循其条件和不同设计选择的影响的程度，我们进行了一项感知研究。代码和训练模型可在 https://github.com/ParthaEth/GIF 上公开用于研究目的。我们发现对 FLAME 参数的幼稚调节会产生相当不令人满意的结果。相反，我们渲染出 FLAME 网格的几何和光度测量细节，并将它们用于调节。这为我们提供了一个名为 GIF（生成可解释人脸）的生成 2D 人脸模型，该模型共享 FLAME 的参数化控制。给定形状、姿势和表情的 FLAME 参数、外观和照明的参数以及额外的样式矢量，GIF 输出逼真的面部图像。为了评估 GIF 遵循其条件和不同设计选择的影响的程度，我们进行了一项感知研究。代码和训练模型可在 https://github.com/ParthaEth/GIF 上公开用于研究目的。我们发现对 FLAME 参数的幼稚调节会产生相当不令人满意的结果。相反，我们渲染出 FLAME 网格的几何和光度测量细节，并将它们用于调节。这为我们提供了一个名为 GIF（生成可解释人脸）的生成 2D 人脸模型，该模型共享 FLAME 的参数化控制。给定形状、姿势和表情的 FLAME 参数、外观和照明的参数以及额外的样式矢量，GIF 输出逼真的面部图像。为了评估 GIF 遵循其条件和不同设计选择的影响的程度，我们进行了一项感知研究。代码和训练模型可在 https://github.com/ParthaEth/GIF 上公开用于研究目的。相反，我们渲染出 FLAME 网格的几何和光度测量细节，并使用这些来进行调节。这为我们提供了一个名为 GIF（生成可解释人脸）的生成 2D 人脸模型，该模型共享 FLAME 的参数化控制。给定形状、姿势和表情的 FLAME 参数、外观和照明的参数以及额外的样式矢量，GIF 输出逼真的面部图像。为了评估 GIF 遵循其条件和不同设计选择的影响的程度，我们进行了一项感知研究。代码和训练模型可在 https://github.com/ParthaEth/GIF 公开用于研究目的。相反，我们渲染出 FLAME 网格的几何和光度测量细节，并将它们用于调节。这为我们提供了一个名为 GIF（生成可解释人脸）的生成 2D 人脸模型，该模型共享 FLAME 的参数化控制。给定形状、姿势和表情的 FLAME 参数、外观和照明的参数以及额外的样式矢量，GIF 输出逼真的面部图像。为了评估 GIF 遵循其条件和不同设计选择的影响的程度，我们进行了一项感知研究。代码和训练模型可在 https://github.com/ParthaEth/GIF 上公开用于研究目的。给定形状、姿势和表情的 FLAME 参数、外观和照明的参数以及额外的样式矢量，GIF 输出逼真的面部图像。为了评估 GIF 遵循其条件和不同设计选择的影响的程度，我们进行了一项感知研究。代码和训练模型可在 https://github.com/ParthaEth/GIF 公开用于研究目的。给定形状、姿势和表情的 FLAME 参数、外观和照明的参数以及额外的样式矢量，GIF 输出逼真的面部图像。为了评估 GIF 遵循其条件和不同设计选择的影响的程度，我们进行了一项感知研究。代码和训练模型可在 https://github.com/ParthaEth/GIF 上公开用于研究目的。

更新日期：2020-09-02

点击分享查看原文

点击收藏

阅读更多本刊最新论文

全部期刊列表>>