用GAN消除视频会议模糊,神奇的Vid2Vid Cameo模型

用GAN消除视频会议模糊,神奇的Vid2Vid Cameo模型
文章图片
无需会议室和出差 , 打开手机 , 登录APP , 就可以和千里之外的人“面对面”开会 。 疫情下 , 这种场景已经成为很多打工人工作的常态 。
作为一种实时的网络应用 , 视频会议对网络的要求比较高 。 当下视频会议过程中 , 因网络信号问题 , 常会导致与会者频频掉线、屏幕共享画面不清晰 , 影响开会的效率 。 此外 , 成像角度不佳、客观原因造成个人形象不佳等问题 , 也将影响与会者的开会体验 。 如何在低网络带宽下 , 进行流畅、清晰的视频会议 , 成为困扰众多视频会议开发者的难题 。
此前 , 开发者大多通过调整图像分辨率、码流、帧数等方式实现视频数据压缩 , 解决低网络带宽下视频会议问题 。 虽然这类方法可以缓解视频会议卡顿问题 , 但会导致视频图像模糊、不连贯 。
而以深度学习为代表的卷积神经网络具有更深的学习层次 , 能够有效的去除掉冗余数据特征 , 获得更高的压缩比 , 开发者们倾向于使用神经网络来替代以前的方法 。 同时 , 由于带宽一般很难增加 , 而增强算力相对容易 , 所以开发者们也更希望将带宽问题转化为计算问题 。
基于此 , NVIDIA研究团队从AI维度出发 , 开发了一个用于视频会议软件NVIDIAMaxineSDK的深度学习模型Vid2VidCameo , 只需一张照片或卡通头像 , 就能合成逼真的3D人脸说话视频 。
一、视频会议MaxineSDK背后的AI生成模型
受疫情影响 , 远程协作和办公已逐渐成为不可逆转的趋势 , 这使得各种视频会议APP下载量激增 , 成为打工人的标配 。
为了增强用户的视频会议使用体验 , NVIDIA推出了一套基于云的、GPU加速的AI视频会议软件Maxine 。 NVIDIAMaxine包括三个AISDK:视频特效SDK、音频特效SDK和ARSDK , 每个SDK里面都配有预训练好的深度学习模型 , 使开发者可以快速构建或增强其实时应用程序 。
Vid2VidCameo是基于NVIDIAMaxineSDK专为视频会议打造的深度学习模型之一 。 它使用生成式对抗网络(GenerativeAdversarialNetworks , GAN) , 在一个人的真实照片或卡通头像上合成动态的3D说话视频 。
用GAN消除视频会议模糊,神奇的Vid2Vid Cameo模型
文章图片
二、仅需一张照片合成逼真的3D人脸说话视频
NVIDIAVid2VidCameo只需两个元素:一张参考照片和一个指导图像应该如何动的视频流 。 其中 , 把上传的清晰照片作为源图像 , 从中获取外貌特征;然后把视频中一帧帧画面作为重构视频的依据 , 从中提取出面部表情和头部姿势等信息 。 通过这些信息 , 模型可以将参会者的面部动作映射到静止的照片上 , 进而合成视频会议上的逼真人脸说话视频 。
同时 , 该模型基于NVIDIADGX系统开发 , 并使用包含18万个高质量人脸说话视频的数据集进行训练 。 这让该网络学会了识别20个人脸关键点 , 而这些关键点可以在没有人工标注的情况下用来模拟面部运动 , 借此修正使用者在会议中低头、看两旁 , 而未专注于镜头方向的情况 , 让使用者在会议中看起来更有参与感 。
在NVIDIAVid2VidCameo提供的交互式体验Demo中 , 可以在Pitch俯仰角(向下/向上)、Yaw偏航角(左/右)、Roll翻滚角(顺时针/逆时针)三个方向上任意旋转 , 每个方向上最多旋转30度 。 甚至眼球也可以上下左右的旋转 , 每个方向上最多旋转20度 。
用GAN消除视频会议模糊,神奇的Vid2Vid Cameo模型
文章图片
现在点击【https://www.nvidia.cn/research/ai-demos/?ncid=pa-so-wech-929496-vt16#cid=_pa-so-wech_zh-cn】试用NVIDIAVid2VidCameo交互式Demo 。