微调迭代仅500次,大眼萌生成效果超越StyleGAN,可在线试玩

机器之心报道
编辑:杜伟、陈萍
JoJoGAN生成的漫画脸可以细致到捕获眼睛形状和细节 。
喜欢看漫画的小伙伴 , 或多或少都听过《JOJO的奇妙冒险》 , 简称JOJO , 这是一本由日本漫画家荒木飞吕彦所著漫画 , 其独特的画风 , 令人惊叹的剧情 , 可谓是青少年漫画的必看作 。
好的作品总是给人以灵感 , 来自伊利诺伊大学厄巴纳-香槟分校(UniversityofIllinoisatUrbana-Champaign , UIUC)的研究者以JOJO为灵感 , 开发出一款漫画生成框架JoJoGAN , 该框架可以将任意人脸进行风格化 。 用户只需要给定一个单一的输入风格参照(如下图第一排图像 , 包括不同的动漫和卡通人物) , JoJoGAN就能将该风格应用到任何输入图像上(如下图最左边的歌手IU , 马斯克) , 生成的图像风格特征都保留完好 , 如眼睛、发色等 。
例如生成长发公主风格的马斯克 , 眼睛大大的马斯克看起来还挺萌:
微调迭代仅500次,大眼萌生成效果超越StyleGAN,可在线试玩
文章图片
JoJoGAN其他生成效果展示:
微调迭代仅500次,大眼萌生成效果超越StyleGAN,可在线试玩
文章图片
JoJoGAN还能在线试玩 , 你也可以输入自己的图片查看生成的漫画脸 , 这里 , 我们也试玩了一下 , 效果还不错:
微调迭代仅500次,大眼萌生成效果超越StyleGAN,可在线试玩
文章图片
试玩地址:https://huggingface.co/spaces/akhaliq/JoJoGAN
微调迭代仅500次,大眼萌生成效果超越StyleGAN,可在线试玩
文章图片
论文地址:https://arxiv.org/pdf/2112.11641.pdf
项目地址:https://github.com/mchong6/JoJoGAN
总体而言 , JoJoGAN首先对一个成对的训练数据集进行近似 , 然后微调StyleGAN , 以执行单次(one-shot)面部风格化 。 该研究表明 , JoJoGAN在零监督的情况下 , 可以很好的保留参考图像的风格细节 , 还能泛化到不同的风格 。
技术解读
首先来看JoJoGAN的工作流 。
JoJoGAN通过对具有单个参照风格图像的预训练StyleGAN2的微调来工作 , 具体分为以下四个步骤:
通过GAN翻转参照风格图像y来准备近似成对训练数据 , 得到的风格代码w可以生成合理的真实人脸图像x;
找出生成真实人脸图像x族的w族 , 它应该与参照风格图像y相匹配 。 形成(w_i,y)对 , 作为成对训练集;
根据这些成对训练数据进行微调;
使用微调后的StyleGAN生成新的样本 。
微调迭代仅500次,大眼萌生成效果超越StyleGAN,可在线试玩
文章图片
然后是数据准备 。
使用成对数据进行训练时图像风格化任务的最佳选择 , 但是 , 成对数据不易获得 , 需要耗费大量时间和资源 。 目前 , 领域内没有适合本研究中任务的好的开源成对数据集 。
因此 , 研究者想要通过如下图3中的近似成对训练数据集来克服这一问题 。 给定一个风格参照图像y , 他们使用e4e框架执行GAN反转以获得W 。 由于e4e是在真实人脸数据集上训练的 , 无法泛化到分布外(out-of-distribution)风格图像 , 因而为研究者提供了一个近似真实人脸图像y的w , 形成了一个成对的(w,y)训练集 。
微调迭代仅500次,大眼萌生成效果超越StyleGAN,可在线试玩
文章图片
但是 , 仅使用单个数据点进行训练导致对其他图像的泛化效果较差 , 如下图4所示 。 因此 , 研究者通过生成更多训练数据点来克服这一问题 。 思路很简单 , 很多真实人脸图像应该与相同风格的参照图像相匹配 。 例如 , 眼睛大小或头发纹理略有不同的人脸可以与相同的参照图像相匹配 。