图像大面积缺失，也能逼真修复，新模型CM-GAN兼顾全局结构和纹理细节( 二 ) 机器之心报道机器之心编辑部

文章图片
如下图2(左)所示， CM-GAN基于一个编码器分支和两个并行级联解码器分支来生成视觉输出。编码器以部分图像和掩码为输入，生成多尺度特征图

文章图片
。
与大多数编码器-解码器方法不同，为了完成整体结构，该研究从全连接层的最高级别特征

文章图片
中提取全局样式代码s ，然后进行

文章图片
归一化。此外，基于MLP的映射网络从噪声中生成样式代码w ，以模拟图像生成的随机性。代码w与s结合产生一个全局代码g=[s;w] ，用于之后的解码步骤。
全局空间级联调制。为了在解码阶段更好地连接全局上下文，该研究提出了全局空间级联调制(CM ， cascadedmodulation) 。如图2（右）所示，解码阶段基于全局调制块（GB）和空间调制块（SB）两个分支，并行上采样全局特征F_g和局部特征F_s 。

文章图片
与现有方法不同， CM-GAN引入了一种将全局上下文注入空洞区域的新方法。在概念层面上，它由每个尺度的特征之间的级联全局和空间调制组成，并且自然地集成了全局上下文建模的三种补偿机制：1）特征上采样；2)全局调制；3）空间调制。

文章图片
物体感知训练
【图像大面积缺失，也能逼真修复，新模型CM-GAN兼顾全局结构和纹理细节】为训练生成掩码的算法至关重要。本质上，采样的掩码应该类似于在实际用例中绘制的掩码，并且掩码应避免覆盖整个物体或任何新物体的大部分。过度简化的掩码方案可能会导致伪影。
为了更好地支持真实的物体移除用例，同时防止模型在空洞内合成新物体，该研究提出了一种物体感知训练方案，在训练期间生成了更真实的掩码，如下图4所示。

文章图片
具体来说，该研究首先将训练图像传递给全景分割网络PanopticFCN以生成高度准确的实例级分割注释，然后对自由空洞和物体空洞的混合进行采样作为初始掩码，最后计算空洞和图像中每个实例之间的重叠率。如果重叠率大于阈值，该方法将前景实例从空洞中排除；否则，空洞不变并模拟物体完成，其中阈值设为0.5 。该研究随机扩展和平移物体掩码以避免过度拟合。此外，该研究还扩大了实例分割边界上的空洞，以避免将空洞附近的背景像素泄漏到修复区域中。
训练目标与Masked-R_1正则化
该模型结合对抗性损失和基于分割的感知损失进行训练。实验表明，该方法在纯粹使用对抗性损失时也能取得很好的效果，但加入感知损失可以进一步提高性能。
此外，该研究还提出了一种专门用于稳定修复任务的对抗性训练的masked-R_1正则化，其中利用掩码m来避免计算掩码外的梯度惩罚。
实验
该研究在Places2数据集上以512×512分辨率进行了图像修复实验，并给出了模型的定量和定性评估结果。
定量评估：下表1为CM-GAN与其他掩码方法的比较。结果表明， CM-GAN在FID、LPIPS、U-IDS和P-IDS方面明显优于其他方法。在感知损失的帮助下， LaMa、CM-GAN比CoModGAN和其他方法获得了明显更好的LPIPS分数，这归功于预训练感知模型提供的额外语义指导。与LaMa/CoModGAN相比， CM-GAN将FID从3.864/3.724降低到1.628 。