图像|湖波荡漾、烟雾蒸腾……这些动态场景竟都是AI「脑补」出的华盛顿大学|人工智能|霍格沃兹

机器之心报道
参与：杜伟、张倩
霍格沃兹的魔法世界，似乎离我们越来越近了。

文章插图

或许是受到「霍格沃兹」魔法世界的启发，近年来，人们为了让静态的照片动起来花了不少功夫。不过，之前的很多研究针对的都是人物，水流、烟雾等自然场景的研究相对较少。但如果翻看手机相册的话，景物照可不比人像少。
对于人类而言，一张图像通常不仅仅是像素的集合。根据我们以往对世界的观察，当拍摄图像时，我们不仅可以识别出物体、结构，还可以想象到场景的运动方式。通过这些先验，我们常常可以想象到图像的动态展示场景，例如烟囱冒烟、湖波荡漾等。
在华盛顿大学和 Facebook 的一项新研究中，研究者们提出了一个从真实场景视频中学习相同运动先验的系统，该系统可以利用一张全新的静态图像合成合理运动，并渲染出基于该图像的场景动画视频。

文章插图

论文链接：https://arxiv.org/pdf/2011.15128.pdf
以下是本文所提方法的转换效果：

文章插图

文章插图

文章插图

可见人工智能模型的脑补能力不仅限于单一场景了。AI 的创作，看起来有一点延时摄影的感觉。
方法详解
一般场景运动极其复杂，包含透视效果、遮蔽区域和瞬时状态。而在本研究中，研究者只考虑流体运动，例如可以很好地利用欧拉运动来近似的烟、水和云，特别是静态速度场中的粒子运动。
本文方法以单一静态图像为输入，生成循环播放的视频纹理。研究者首先使用一个图像到图像转换网络来合成欧拉运动场，并且该网络通过提取自在线自然场景视频素材的成对图像和运动场来训练。然后，通过欧拉积分，运动场定义输出视频序列中每个源像素的轨迹。
给定源像素在未来帧中的位置，研究者使用深度变形技术来渲染相应帧。具体而言，研究者使用一个编码器网络将输入图像转换成深度特征图，使用一种新的时序对称抛雪球算法来 warp 这些特征，并使用解码器网络来复原相应的 warped 彩色图像。最后，为了确保输出视频实现无缝循环，研究者使用了一种在深度特征空间运行的视频循环技术。
整个方法的 pipeline 如下图所示：
【图像|湖波荡漾、烟雾蒸腾……这些动态场景竟都是AI「脑补」出的】

文章插图

如图所示，给出一张输入图像 I_0，运动估计网络将预测出一个运动场 M。通过欧拉积分，M 被用来生成未来和过去的位移场 F_0t 和 F_0tN，它们定义了其他所有帧 t 中的源像素位置。为了使用估计的运动让输入图像动起来，研究者首先使用了一个特征编码器网络，将图像编码为一个特征图 D_0。接下来，使用一种新的对称抛雪球技术，借助位移场对上述特征图进行变形，生成对应的变形特征图 D_t。最后，将变形的特征提供给解码器网络来创建输出视频帧 I_t。
实验效果
研究者通过比较预测运动与未来视频帧中的 ground-truth 像素位置来验证本文提出的运动表示的有效性。结果如下图 7 所示，由此可见该方法可以最忠实地重现场景的 ground-truth 运动。