新GAN技术应用多层次特征的风格迁移人脸生成器你了解吗

 GAN 自 2014 年提出以来得到了广泛应用。前不久效果令人震惊的 ICLR 2019 论文 BigGAN 引发了众多关注。去年英伟达投稿 ICLR 2018 的论文《Progressive Growing of GANs for Improved Quality, Stability, and Variation》效果也很惊艳。近日 PGGAN 的作者再发论文,这次的效果更加真实。

 
新GAN技术应用多层次特征的风格迁移人脸生成器你了解吗
 
是的,这些图片都是由 GAN 生成的。
 
这款新型 GAN 生成器架构借鉴了风格迁移研究,可对高级属性(如姿势、身份)进行自动学习和无监督分割,且生成图像还具备随机变化(如雀斑、头发)。该架构可以对图像合成进行直观、多尺度的控制,在传统的分布质量指标上达到了当前最优,展示了更好的插值属性,并且能够更好地将潜在的变差因素解纠缠。
 
下图展示了这款新型生成器的风格效果。它将隐编码生成的风格(source)叠加在另一种隐编码的风格子集(destination)上。
 
对空间分辨率较低(4^2 – 8^2)的层的风格进行叠加的效果见「Coarse styles copied」部分:生成图像从 source 中复制了姿势、大致发型、脸形和眼镜等高级属性,但保留了 destination 图像的所有颜色(眼睛、头发、光线)和细节脸部特征。
 
对空间分辨率为 16^2 – 32^2 的层的风格进行叠加的效果见「Middle styles copied」部分:复制了 source 图像的细微面部特征、发型、眼睛睁开的状态,同时保留了 destination 图像的姿势、脸形和眼镜。
 
对高分辨率 (64^2 – 1024^2) 的层的风格进行叠加的效果见「Fine styles」:主要保留了 source 图像的颜色和微小特征。
 
新GAN技术应用多层次特征的风格迁移人脸生成器你了解吗
 
基于风格的生成器
 
如下图所示,(a)PGGAN 生成器将隐编码仅馈入输入层,而(b)英伟达最近提出的基于风格的生成器首先将输入映射到中间潜在空间 W,W 控制生成器在每个卷积层的自适应实例归一化(adaptive instance normalization,AdaIN)。然后在应用非线性激活之前在每个卷积层之后添加高斯噪声。图中 A 表示学到的仿射变换,B 表示学到的每个通道对噪声输入的比例因子。映射网络 f 包含 8 个层,合成网络 g 包含 18 个层(4^2、8^2、16^2、32^2、64^2、128^2、256^2、512^2、1024^2 这九种分辨率中每种分辨率有两个层)。使用互相分离的 1 × 1 卷积将最后一层的输出转换成 RGB,与前作 PGGAN 类似。
 
新GAN技术应用多层次特征的风格迁移人脸生成器你了解吗