近日|meta、cmu联手推出6-dof视频表征方法( 四 ) 近日

同时， HyperReel是用vanillaPyTorch实现的，可在单张RTX3090GPU上以6.5FPS的速度渲染800×800像素的图像（或者用Tiny模型实现29FPS的渲染）。
此外，与R2L的88层、256个隐藏单元的深度MLP相比，研究人员提出的6层、256个隐藏单元的网络外加TensoRF体积骨干的推理速度更快

文章图片
LLFF数据集
LLFF数据集包含8个具有1008×756像素图像的真实世界序列。
如表1所示， HyperReel的方法优于DoNeRF、AdaNeRF、TermiNeRF和InstantNGP ，但取得的质量比NeRF略差。
由于错误的相机校准和输入视角的稀疏性，这个数据集对显式体积表征来说是一个巨大的挑战。

文章图片
动态场景的比较
Technicolor数据集
Technicolor光场数据集包含了由时间同步的4×4摄像机装置拍摄的各种室内环境的视频，其中每个视频流中的每张图片都是2048×1088像素。
研究人员将HyperReel和Neural3DVideo在全图像分辨率下对这个数据集的五个序列（Birthday,Fabien,Painter,Theater,Trains）进行比较，每个序列有50帧长。
如表2所示， HyperReel的质量超过了Neural3DVideo ，同时每个序列的训练时间仅为1.5个小时（而不是Neural3D的1000多个小时），并且渲染速度更快。
Neural3DVideo数据集
Neural3DVideo数据集包含6个室内多视图视频序列，由20台摄像机以2704×2028像素的分辨率拍摄。
如表2所示， HyperReel在这个数据集上的表现超过了所有的基线方法，包括NeRFPlayer和StreamRF等最新工作。
特别是， HyperReel在数量上超过了NeRFPlayer ，渲染速度是其40倍左右；在质量上超过了StreamRF ，尽管其采用Plenoxels为骨干的方法（使用定制的CUDA内核来加快推理速度）渲染速度更快。
此外， HyperReel平均每帧消耗的内存比StreamRF和NeRFPlayer都要少得多。
谷歌Immersive数据集
谷歌Immersive数据集包含了各种室内和室外环境的光场视频。
如表2所示， HyperReel在质量上比NeRFPlayer的要好1dB ，同时渲染速度也更快。

文章图片
有些遗憾的是， HyperReel目前还没有达到VR所要求的渲染速度（理想情况下为72FPS ，立体声）。
不过，由于该方法是在vanillaPyTorch中实现的，因此可以通过比如自定义的CUDA内核等工作，来进一步优化性能。

文章图片
作者介绍
论文一作BenjaminAttal ，目前在卡内基梅隆机器人研究所攻读博士学位。研究兴趣包括虚拟现实，以及计算成像和显示。

文章图片