英伟达新技术将NeRF模型训练速度提高60倍,最快只需5秒

近日 , 英伟达使用一种新技术将训练NeRF模型的时间缩减到仅需5秒 。
对此 , 任职于谷歌的科学家乔恩·巴伦(JonBarron)在Twitter上写道:“18个月前 , 训练NeRF要5小时;2个月前 , 训练NeRF仍要5分钟;而现在 , 英伟达的最新技术竟将训练NeRF的时间缩减到5秒!”
据了解 , 英伟达能够取得这一成绩的主要原因是采用了一种被称作多分辨率哈希编码(MultiresolutionHashEncoding)的技术 。 同时 , 其在一篇论文《基于多分辨率哈希编码的即时神经图形基元》(InstantNeuralGraphicsPrimitiveswithaMultiresolutionHashEncoding)中对这一新技术做了详细说明 。
英伟达新技术将NeRF模型训练速度提高60倍,最快只需5秒】英伟达表示:“计算机图形基元基本上由参数化外观的数学函数表示 。 数学表示的质量和性能特性对于视觉保真度至关重要 。 ”其希望在保持快速和紧凑函数表示的同时 , 还能捕获高频、局部的细节 。
为了达到上述要求 , 英伟达采用了多分辨率哈希编码技术 。 据英伟达称 , 该技术独立于任务之外 , 有着自适应性和高效性两大特性 。 其只有两个值进行配置 , 分别为参数的数量T和所需的最佳分辨率Nmax 。
利用该技术 , 只需经过几秒钟的训练 , 便能在各种任务中达到较高的质量 。
英伟达新技术将NeRF模型训练速度提高60倍,最快只需5秒
文章图片
图|在一个GPU上对多个任务神经图形基元的即时训练演示(来源:GitHub)
利用NeRF , 能够将一些静态图转成十分真实的3D图像 。 不过 , NeRF相当消耗算力 , 成本较高 , 特别是在渲染方面 。
据论文中表述 , “参数化全连接神经网络的神经图形基元的训练和评估”成本相对较高 , 为了将成本降低 , 英伟达采用一新的通用输入编码 , 可以在一个较小的网络 , 且不降低质量的情况下 , 显著减少浮点和内存访问操作的数量 。 英伟达因此实现了“几个数量级的组合加速 , 可以在几秒钟内训练高质量的神经图形基元 。 ”
英伟达在神经辐射场(NeuralRadianceFields , NeRF)、神经辐射缓存(NeuralRadianceCaching , NRC)、十亿像素图像(GigapixelImage)、神经符号距离函数(NeuralSignedDistanceFunctions , SDF)等四个较为有代表性的任务中验证了多分辨率哈希编码技术 。
这里重点介绍一下NeRF任务 。
英伟达新技术将NeRF模型训练速度提高60倍,最快只需5秒
文章图片
动图|不同编码的重建质量演示(来源:GitHub)
上图每个图像下面显示的是可训练参数的数量(神经网络权重+编码参数)和训练时间 。 英伟达表示 , 由于参数更新的稀疏性和较小的神经网络 , 训练速度得到提升 。 另外 , 随着参数数量的增加 , 也可进一步提高近似质量 , 而训练时间却不会明显增加 。
同时 , 英伟达的技术还支持现实360度全景场景和“具有较多模糊、镜面反射表面的复杂场景” , 且都能够对它们进行实时渲染 , 并“在5分钟内通过随意捕获的数据进行训练” 。
视频|iPhone拍摄的360度全景场景(来源:GitHub)
视频|34张照片构成的复杂场景(来源:GitHub)
值得一提的是 , 多分辨率哈希编码技术还支持从体积路径跟踪器的噪声输出中训练类似NerF的辐射场 。 在训练期间 , 光线被实时馈送到网络 , 以学习一个去噪的辐射场 。
最后 , 再对另外三个任务做一定简述 。
动图|三角波编码(左)和多分辨率哈希编码(右)显示结果对比(来源:GitHub)
从上面图像对比中 , 可以看出 , 新的多分辨率哈希编码能够使网络学习包括阴影区域在内的更多细节 。