动手画个二次元老婆,上科大团队这个APP火出圈,网友:我学废了( 二 )


据了解 , 「WAND」背后的开发团队影眸科技孵化于上海科技大学 , 团队聚焦于前沿人工智能、计算机视觉技术在影视制作、大众娱乐市场的推广应用 , 近期也有相关研究入选ICCV2021等顶会 。
SofGAN
看完了APP效果 , 我们来看下背后的技术 。 据项目介绍 , 该软件基于上海科技大学ACMTransactionsonGraphics2021的一篇研究论文实现 。
动手画个二次元老婆,上科大团队这个APP火出圈,网友:我学废了
文章图片
尽管生成对抗网络(GAN)已被广泛用于人像图像生成 , 但在GAN学习的潜在空间中 , 不同的属性 , 如姿态、形状和纹理风格 , 通常是纠缠在一起的 , 这使得对特定属性的显式控制变得困难 。 为了解决这个问题 , 该研究提出了一个名为SofGAN的图像生成器 , 将人像的潜在空间解耦为两个子空间:几何空间和纹理空间 。 从两个子空间采样的潜在代码分别馈送到两个网络分支 , 一个生成具有规范姿态的人像的3D几何图形 , 另一个生成纹理 。 对齐的3D几何图形还带有语义部分分割 , 编码为语义占用字段(semanticoccupancyfield , SOF) 。 SOF能够在任意视图渲染一致的2D语义分割图 , 然后将其与生成的纹理图融合并使用语义instance-wise(SIW)模块将其风格化为人像图像 。 该研究通过大量实验表明该系统可以生成具有独立可控几何和纹理属性的高质量人像图像 。 此外 , 该方法还可以很好地推广到各种应用中 , 例如外观一致的面部动画生成等 。
在StyleGAN中 , 基于不同级别的输入潜在向量 , 图像的风格在每个卷积层上通过特征来控制 。 这种控制机制虽然有效 , 但并没有提供对单个属性的独立控制 , 很大程度上是由于各种属性的纠缠 。 为了解决这个问题 , 该研究将生成空间分解为两个子空间:几何空间和纹理空间 , 如下图3左所示 。
动手画个二次元老婆,上科大团队这个APP火出圈,网友:我学废了
文章图片
该研究提出的生成pipeline概览 。
几何空间中的每个样本都可以被解码为SOF网络的权重 , 该网络表征了带有伴随语义标签的3D连续占用字段(SOF) 。 在渲染阶段 , 给定任意查询视点 , 该方法将使用光线移动框架将SOF映射为2D分割图 。 SOF的使用确保了视图的一致性 。 接下来该研究遵循语义图像合成框架提出了一个基于语义的instance-wise的生成模块 , 来生成逼真的图像 。
几何建模
相比于先前已有的方法 , 该研究提出了一个更稳定的光线移动器 , 用于根据当前位置特征和光线方向预测步长 , 如下图4所示 。
动手画个二次元老婆,上科大团队这个APP火出圈,网友:我学废了
文章图片
图5展示了一个SOF样例 , 其中包含针对体(volume)内每个点的预测语义标签(只显示最高概率的标签) 。
动手画个二次元老婆,上科大团队这个APP火出圈,网友:我学废了
文章图片
图5:SOF是一个3维的体 , 每个空间点都有一个?class语义概率 。
纹理合成
该研究使用SIW卷积层将基于区域的特征图放大为高分辨率图像 , 如下图6所示 。
动手画个二次元老婆,上科大团队这个APP火出圈,网友:我学废了
文章图片
图6:该研究的SIW生成模块 。
更多技术细节详见论文原文 。