一键cosplay各路动漫人物!快手的这个BlendGAN火了 | NeurIPS 2021

金磊发自凹非寺
量子位报道|公众号QbitAI
动漫、艺术作品里的人物 , 他们极具张力的形象往往给人们留下深刻的印象 。
一键cosplay各路动漫人物!快手的这个BlendGAN火了 | NeurIPS 2021】但如果说现在 , 你也可拥有他们的同款造型呢?
没错 , 依旧来自是“无所不能”的GAN 。
只要把你pick好的形象“投喂”进去 , 接下来妆发的工作交给它就行了:
一键cosplay各路动漫人物!快手的这个BlendGAN火了 | NeurIPS 2021
文章图片
红的、黄的、蓝的、白的……发色随意改变 , 风格也随之变换 。
这就是来自快手的BlendGAN , 而且这项工作还被顶会NeurIPS2021接收 。
一键cosplay各路动漫人物!快手的这个BlendGAN火了 | NeurIPS 2021
文章图片
而与以往“变妆”GAN不同的是 , BlendGAN号称能驾驭的风格是——任意!
是有种“百变大咖秀”的那味了 。
于是乎 , 这个项目成功在网上引起了众多网友的围观 。
一键cosplay各路动漫人物!快手的这个BlendGAN火了 | NeurIPS 2021
文章图片
如何丝滑变妆?
那么 , 怎样拥有动漫人物同款造型呢?
很简单 , 只需要准备2张照片:
一张生活照一张动漫人物造型一键cosplay各路动漫人物!快手的这个BlendGAN火了 | NeurIPS 2021
文章图片
现在在HuggingFace里已经有了在线可玩的demo 。
最简单的办法就是把这两张照片上传进去 , 等待一会儿就可以出结果了 。
当然 , 稍微“技术”点的方法就是自己跑一遍程序了 。
就在这两天 , BlendGAN在GitHub上也已开源 。
一键cosplay各路动漫人物!快手的这个BlendGAN火了 | NeurIPS 2021
文章图片
首先需要下载一些预训练模型 , 包括BlendGAN模型、PSP编码器模型和Style编码器模型 。
一键cosplay各路动漫人物!快手的这个BlendGAN火了 | NeurIPS 2021
文章图片
然后仅需几句Python代码 , 便可出效果 。
例如用随机人脸代码生成图像对 , 就输入:
pythongenerate_image_pairs.py--size1024--picsN_PICS--ckpt./pretrained_models/blendgan.pt--style_img./test_imgs/style_imgs/100036.png--outdirresults/generated_pairs/reference_guided/
若是要给照片换风格 , 则输入:
pythonstyle_transfer_folder.py--size1024--ckpt./pretrained_models/blendgan.pt--psp_encoder_ckpt./pretrained_models/psp_encoder.pt--style_img_path./test_imgs/style_imgs/--input_img_path./test_imgs/face_imgs/--outdirresults/style_transfer/
要生成插值视频 , 则:
pythongen_video.py--size1024--ckpt./pretrained_models/blendgan.pt--psp_encoder_ckpt./pretrained_models/psp_encoder.pt--style_img_path./test_imgs/style_imgs/--input_img_path./test_imgs/face_imgs/--outdirresults/inter_videos/
为什么可以hold住任意风格?
那么快手的这个BlendGAN , 为什么可以同时驾驭这么多的风格?
据研究介绍 , 团队首先是利用灵活的混合策略和通用的艺术数据集 , 来生成任意样式化的脸 。
具体来说 , 就是在通用艺术数据集上 , 训练一个自监督Style编码器来提取任意样式的表示 。
一键cosplay各路动漫人物!快手的这个BlendGAN火了 | NeurIPS 2021
文章图片
在生成器部分 , 则提出了一种叫做加权混合模块(WBM)的方法 , 来隐式混合人脸和样式表示 , 并控制任意的程式化效果 。
一键cosplay各路动漫人物!快手的这个BlendGAN火了 | NeurIPS 2021
文章图片
以往诸如StyleGAN2在这个步骤中 , 不同分辨率层(resolutionlayer)负责生成图像中的不同特征 , 而团队认为它们在不同层的混合权值不应当是一致的 。
因此 , 研究人员将人脸和风格latent代码转换到它们的W空间 , 然后再由WBM进行一个组合的工作 。