图像大面积缺失,也能逼真修复,新模型CM-GAN兼顾全局结构和纹理细节( 二 )


文章图片
如下图2(左)所示 , CM-GAN基于一个编码器分支和两个并行级联解码器分支来生成视觉输出 。 编码器以部分图像和掩码为输入 , 生成多尺度特征图
图像大面积缺失,也能逼真修复,新模型CM-GAN兼顾全局结构和纹理细节
文章图片

与大多数编码器-解码器方法不同 , 为了完成整体结构 , 该研究从全连接层的最高级别特征
图像大面积缺失,也能逼真修复,新模型CM-GAN兼顾全局结构和纹理细节
文章图片
中提取全局样式代码s , 然后进行
图像大面积缺失,也能逼真修复,新模型CM-GAN兼顾全局结构和纹理细节
文章图片
归一化 。 此外 , 基于MLP的映射网络从噪声中生成样式代码w , 以模拟图像生成的随机性 。 代码w与s结合产生一个全局代码g=[s;w] , 用于之后的解码步骤 。
全局空间级联调制 。 为了在解码阶段更好地连接全局上下文 , 该研究提出了全局空间级联调制(CM , cascadedmodulation) 。 如图2(右)所示 , 解码阶段基于全局调制块(GB)和空间调制块(SB)两个分支 , 并行上采样全局特征F_g和局部特征F_s 。
图像大面积缺失,也能逼真修复,新模型CM-GAN兼顾全局结构和纹理细节
文章图片
与现有方法不同 , CM-GAN引入了一种将全局上下文注入空洞区域的新方法 。 在概念层面上 , 它由每个尺度的特征之间的级联全局和空间调制组成 , 并且自然地集成了全局上下文建模的三种补偿机制:1)特征上采样;2)全局调制;3)空间调制 。
图像大面积缺失,也能逼真修复,新模型CM-GAN兼顾全局结构和纹理细节
文章图片
物体感知训练
图像大面积缺失,也能逼真修复,新模型CM-GAN兼顾全局结构和纹理细节】为训练生成掩码的算法至关重要 。 本质上 , 采样的掩码应该类似于在实际用例中绘制的掩码 , 并且掩码应避免覆盖整个物体或任何新物体的大部分 。 过度简化的掩码方案可能会导致伪影 。
为了更好地支持真实的物体移除用例 , 同时防止模型在空洞内合成新物体 , 该研究提出了一种物体感知训练方案 , 在训练期间生成了更真实的掩码 , 如下图4所示 。
图像大面积缺失,也能逼真修复,新模型CM-GAN兼顾全局结构和纹理细节
文章图片
具体来说 , 该研究首先将训练图像传递给全景分割网络PanopticFCN以生成高度准确的实例级分割注释 , 然后对自由空洞和物体空洞的混合进行采样作为初始掩码 , 最后计算空洞和图像中每个实例之间的重叠率 。 如果重叠率大于阈值 , 该方法将前景实例从空洞中排除;否则 , 空洞不变并模拟物体完成 , 其中阈值设为0.5 。 该研究随机扩展和平移物体掩码以避免过度拟合 。 此外 , 该研究还扩大了实例分割边界上的空洞 , 以避免将空洞附近的背景像素泄漏到修复区域中 。
训练目标与Masked-R_1正则化
该模型结合对抗性损失和基于分割的感知损失进行训练 。 实验表明 , 该方法在纯粹使用对抗性损失时也能取得很好的效果 , 但加入感知损失可以进一步提高性能 。
此外 , 该研究还提出了一种专门用于稳定修复任务的对抗性训练的masked-R_1正则化 , 其中利用掩码m来避免计算掩码外的梯度惩罚 。
实验
该研究在Places2数据集上以512×512分辨率进行了图像修复实验 , 并给出了模型的定量和定性评估结果 。
定量评估:下表1为CM-GAN与其他掩码方法的比较 。 结果表明 , CM-GAN在FID、LPIPS、U-IDS和P-IDS方面明显优于其他方法 。 在感知损失的帮助下 , LaMa、CM-GAN比CoModGAN和其他方法获得了明显更好的LPIPS分数 , 这归功于预训练感知模型提供的额外语义指导 。 与LaMa/CoModGAN相比 , CM-GAN将FID从3.864/3.724降低到1.628 。