图像大面积缺失,也能逼真修复,新模型CM-GAN兼顾全局结构和纹理细节
机器之心报道
机器之心编辑部
来自罗彻斯特大学和AdobeResearch的研究者提出了一种新的生成网络CM-GAN , 很好地合成了整体结构和局部细节 , 在定量和定性评估方面都显著优于现有SOTA方法 , 如CoModGAN和LaMa 。
图像修复是指对图像缺失区域进行补全 , 是计算机视觉的基本任务之一 。 该方向有许多实际应用 , 例如物体移除、图像重定向、图像合成等 。
早期的修复方法基于图像块合成或颜色扩散来填充图像缺失部分 。 为了完成更复杂的图像结构 , 研究人员开始转向数据驱动的方案 , 他们利用深度生成网络来预测视觉内容和外观 。 通过在大量图像上进行训练 , 并借助重建和对抗损失 , 生成式修复模型已被证明可以在包括自然图像和人脸在内的各种类型输入数据上产生更具视觉吸引力的结果 。
然而 , 现有工作只能在完成简单的图像结构方面显示出良好的结果 , 生成整体结构复杂和细节高保真的图像内容仍然是一个巨大的挑战 , 特别是当图像空洞(hole)很大的时候 。
从本质上讲 , 图像修复面临两个关键问题:一个是如何将全局上下文准确地传播到不完整区域 , 另一个是合成与全局线索一致的真实局部细节 。 为了解决全局上下文传播问题 , 现有网络利用编码器-解码器结构、空洞卷积、上下文注意力或傅里叶卷积来整合长程特征依赖 , 扩大有效感受野 。 此外 , 两阶段方法和迭代空洞填充依靠预测粗略结果来增强全局结构 。 然而 , 这些模型缺乏一种机制来捕获未掩码区域的高级语义 , 并有效地将它们传播到空洞中以合成一个整体的全局结构 。
基于此 , 来自罗彻斯特大学和AdobeResearch的研究者提出了一种新的生成网络:CM-GAN(cascadedmodulationGAN) , 该网络可以更好地合成整体结构和局部细节 。 CM-GAN中包括一个带有傅里叶卷积块的编码器 , 用于从带有空洞的输入图像中提取多尺度特征表征 。 CM-GAN中还有一个双流解码器 , 该解码器在每个尺度层都设置一个新型级联的全局空间调制块 。
在每个解码器块中 , 研究者首先应用全局调制来执行粗略和语义感知的结构合成 , 然后进行空间调制来进一步以空间自适应方式调整特征图 。 此外 , 该研究设计了一种物体感知训练方案 , 以防止空洞内产生伪影 , 从而满足现实场景中物体移除任务的需求 。 该研究进行了广泛的实验表明 , CM-GAN在定量和定性评估方面都显著优于现有方法 。
文章图片
论文地址:https://arxiv.org/pdf/2203.11947.pdf
项目地址:https://github.com/htzheng/CM-GAN-Inpainting
我们先来看下图像修复效果 , 与其他方法相比 , CM-GAN可以重建更好的纹理:
文章图片
CM-GAN可以合成更好的全局结构:
文章图片
CM-GAN具有更好的物体边界:
文章图片
下面我们来看下该研究的方法和实验结果 。
方法
级联调制GAN
为了更好地建模图像补全的全局上下文 , 该研究提出一种将全局码调制与空间码调制级联的新机制 。 该机制有助于处理部分无效的特征 , 同时更好地将全局上下文注入空间域内 。 新架构CM-GAN可以很好地综合整体结构和局部细节 , 如下图1所示 。
- 12306客服回应APP崩了:未接大面积投诉,可能是网络延迟
- 12306回应APP“崩了”:未接大面积投诉,可能是网络延迟
- 济南|农村大面积的信息化,农村的“互联网+”建设取得效果
- 散热|号称比小米12 Ultra叶脉更强!moto X30 Pro搭载近20000mm2大面积散热
- 本文转自:上观新闻图像显示|中国首次拍摄“火卫一”全身照
- 本文转自:新华社新华社上海7月23日电(记者 张建松)7月23日|天问成功获取中国首幅“火卫一”图像 揭秘来自火星的“土豆”拍摄细节
- 图像处理|HDMI延长100米!5种简单方法汇总
- 三星|华为路由Q6 电力线版评测:大面积全屋WiFi覆盖+儿童上网关怀
- 微生物|这个关键“感应器”缺失或导致炎症性肠病
- 细胞|“年轻”蛋白缺失或致眼睛老化