图片|1张GPU就能让静态图片变gif
【图片|1张GPU就能让静态图片变gif】自打伯克利和谷歌联合打造的NeRF横空出世,江湖上静态图变动图的魔法就风靡开来 。
文章图片
不过,想要像这样依靠AI来简化3D动态效果的制作,算力开销可不小:
以NeRF为例,想要在1440 x 1600像素、90Hz的VR头盔中实现实时渲染,需要37 petaFLOPS(每秒10^15次浮点运算)的算力——这在目前的GPU上根本不可能实现 。
怎么降低点计算复杂度?
现在,来自奥地利格拉兹科技大学和Facebook的研究人员,就想出一招:引入真实深度信息 。
就这一下,很快的,推理成本最高能降低48倍,并且只用1个GPU,就能以每秒20帧的速度实现交互式渲染 。
画质什么的,也没啥影响,甚至还能有所提升:
文章图片
具体是怎样一招,咱们往下接着聊 。
基于深度预言网络的NeRF
首先需要说明的是,NeRF,即神经辐射场(neural radiance field)方法,是沿相机射线采样5D坐标,来实现图像合成的 。
文章图片
也就是说,在NeRF的渲染过程中,需要对每条射线都进行网络评估,以输出对应的颜色和体积密度值等信息 。
这正是造成NeRF在实时渲染应用中开销过大的主要原因 。
而现在,格拉兹科技大学和Facebook的研究人员发现,引入真实深度信息,只考虑物体表面周围的重要样本,每条视图射线(view ray)所需的样本数量能够大大减少,并且不会影响到图像质量 。
基于此,他们提出了DONeRF 。
文章图片
DONeRF由两个网络组成,其一,是Sampling Oracle Network,使用分类法来预测沿视图射线的最佳采样位置 。
具体来说,这个深度预言网络通过将空间沿射线离散化,并预测沿射线的采样概率,来预测每条射线上的多个潜在采样对象 。
如下图所示,3个颜色通道编码了沿射线的3种最高采样概率,灰度值表明其中可能只有一个表面需要被采样,而彩色数值则表明这些样本需要在深度上展开 。
文章图片
其二,是一个着色网络,使用类似于NeRF的射线行进累积法来提供RGBA输出 。
为了消除输入的模糊性,研究人员还将射线转换到了一个统一的空间,并使用非线性采样来追踪接近的区域 。
另外,在两个网络之间,研究人员对局部采样进行扭曲,以使着色网络的高频预测被引导到前景上 。
文章图片
本文还引入了视图单元(view cell)的概念 。一个视图单元被定义为一个具有主要方向和最大视角的边界框 。
简单来说,这个边界框能够捕捉到所有源于框内、并且在一定旋转范围内的视图射线 。
利用这样的方法,就可以对大场景进行分割,解决NeRF没有办法应用于大场景的问题 。
此外,较小的视图单元减少了场景中的可见内容,因此可能会进一步提高成像质量 。
对比结果
所以,DONeRF相较于前辈NeRF,到底能快多少?
- 设计师|UI设计岗位薪资怎么样
- m都是大片!微软 Skype 支持将必应 Bing 图片设为通话虚拟背景
- gtx1060|GTX1060上古神器?
- 风情万种的倪妮
- GPU|天玑8000新机快了,相机的配置看上去挺不错,准备冲吗?
- 三星|三星手机Soc搭载AMD Radeon GPU曝光,运行频率超过苹果A15
- 上门|快递上门的“蜀道难”
- 美少女1985集
- 重要提醒!事关春节返乡!
- 电动车,没有新革命