图像大面积缺失,也能逼真修复,新模型CM-GAN兼顾全局结构和纹理细节

机器之心报道
机器之心编辑部
来自罗彻斯特大学和AdobeResearch的研究者提出了一种新的生成网络CM-GAN , 很好地合成了整体结构和局部细节 , 在定量和定性评估方面都显著优于现有SOTA方法 , 如CoModGAN和LaMa 。
图像修复是指对图像缺失区域进行补全 , 是计算机视觉的基本任务之一 。 该方向有许多实际应用 , 例如物体移除、图像重定向、图像合成等 。
早期的修复方法基于图像块合成或颜色扩散来填充图像缺失部分 。 为了完成更复杂的图像结构 , 研究人员开始转向数据驱动的方案 , 他们利用深度生成网络来预测视觉内容和外观 。 通过在大量图像上进行训练 , 并借助重建和对抗损失 , 生成式修复模型已被证明可以在包括自然图像和人脸在内的各种类型输入数据上产生更具视觉吸引力的结果 。
然而 , 现有工作只能在完成简单的图像结构方面显示出良好的结果 , 生成整体结构复杂和细节高保真的图像内容仍然是一个巨大的挑战 , 特别是当图像空洞(hole)很大的时候 。
从本质上讲 , 图像修复面临两个关键问题:一个是如何将全局上下文准确地传播到不完整区域 , 另一个是合成与全局线索一致的真实局部细节 。 为了解决全局上下文传播问题 , 现有网络利用编码器-解码器结构、空洞卷积、上下文注意力或傅里叶卷积来整合长程特征依赖 , 扩大有效感受野 。 此外 , 两阶段方法和迭代空洞填充依靠预测粗略结果来增强全局结构 。 然而 , 这些模型缺乏一种机制来捕获未掩码区域的高级语义 , 并有效地将它们传播到空洞中以合成一个整体的全局结构 。
基于此 , 来自罗彻斯特大学和AdobeResearch的研究者提出了一种新的生成网络:CM-GAN(cascadedmodulationGAN) , 该网络可以更好地合成整体结构和局部细节 。 CM-GAN中包括一个带有傅里叶卷积块的编码器 , 用于从带有空洞的输入图像中提取多尺度特征表征 。 CM-GAN中还有一个双流解码器 , 该解码器在每个尺度层都设置一个新型级联的全局空间调制块 。
在每个解码器块中 , 研究者首先应用全局调制来执行粗略和语义感知的结构合成 , 然后进行空间调制来进一步以空间自适应方式调整特征图 。 此外 , 该研究设计了一种物体感知训练方案 , 以防止空洞内产生伪影 , 从而满足现实场景中物体移除任务的需求 。 该研究进行了广泛的实验表明 , CM-GAN在定量和定性评估方面都显著优于现有方法 。
图像大面积缺失,也能逼真修复,新模型CM-GAN兼顾全局结构和纹理细节
文章图片
论文地址:https://arxiv.org/pdf/2203.11947.pdf
项目地址:https://github.com/htzheng/CM-GAN-Inpainting
我们先来看下图像修复效果 , 与其他方法相比 , CM-GAN可以重建更好的纹理:
图像大面积缺失,也能逼真修复,新模型CM-GAN兼顾全局结构和纹理细节
文章图片
CM-GAN可以合成更好的全局结构:
图像大面积缺失,也能逼真修复,新模型CM-GAN兼顾全局结构和纹理细节
文章图片
CM-GAN具有更好的物体边界:
图像大面积缺失,也能逼真修复,新模型CM-GAN兼顾全局结构和纹理细节
文章图片
下面我们来看下该研究的方法和实验结果 。
方法
级联调制GAN
为了更好地建模图像补全的全局上下文 , 该研究提出一种将全局码调制与空间码调制级联的新机制 。 该机制有助于处理部分无效的特征 , 同时更好地将全局上下文注入空间域内 。 新架构CM-GAN可以很好地综合整体结构和局部细节 , 如下图1所示 。
图像大面积缺失,也能逼真修复,新模型CM-GAN兼顾全局结构和纹理细节