输入一段台词|英伟达让ai“演技”再上台阶:仅靠语音驱动1张照片说话

输入一段台词 , 让照片“演戏”又进阶了!
这次的AI直接让“演技”整体上了一个台阶 , 表演生气、开心、可怜……各种情绪都不在话下 。
输入一段台词|英伟达让ai“演技”再上台阶:仅靠语音驱动1张照片说话
文章图片
并且 , 口型、眼神、头部动作也都让这个AI狠狠拿捏住了!
输入一段台词|英伟达让ai“演技”再上台阶:仅靠语音驱动1张照片说话
文章图片
甚至还能调节喜怒哀乐的程度 。
输入一段台词|英伟达让ai“演技”再上台阶:仅靠语音驱动1张照片说话
文章图片
这是英伟达最新推出的一款AI , 名为SPACEx(此SPACEx非马斯克的SpaceX) , 全称是可控表达的语音驱动肖像动画(Speech-drivenPortraitAnimationwithControllableExpression) 。
输入一段台词|英伟达让ai“演技”再上台阶:仅靠语音驱动1张照片说话
文章图片
其实 , 在英伟达推出SPACEx之前 , 已经有不少语音驱动照片的AI问世 , 那相较于之前那些AI , SPACEx有什么优势呢?人脸动作更稳定 , 更注重细节
此前 , 最常使用的语音驱动照片的AI主要有三个:PC-AVS、MakeItTalk和Wav2Lip 。
但这三个AI都或多或少有些缺陷之处 , 并且要么只能对口型 , 要么就只是整体面部控制的比较好 , 多个功能往往不能兼顾 。
先来说说PC-AVS , 它在对图像和语音进行处理时 , 会对输入图像进行严格的剪裁 , 甚至还会改变姿势 , 此外 , 生成的人脸动作很不稳定 。
而MakeItTalk , 在对口型方面效果不是很好 , 有时候生成的视频中还会出现空白的地方 。
Wav2Lip的功能则比较单一 , 它主要是配音AI , 只改变唇部的动作 , 唇部之外的面部表情毫无变化 。
而这些问题 , 在SPACEx身上通通都被解决掉了 , 话不多说 , 直接看看它们之间的效果对比!
输入一段台词|英伟达让ai“演技”再上台阶:仅靠语音驱动1张照片说话
文章图片
输入一段台词|英伟达让ai“演技”再上台阶:仅靠语音驱动1张照片说话
文章图片
可以看出 , 无论是细节的口型、眼神 , 还是整体的面部动作 , SPACEx都会更加自然一些 。
而细分到各个具体的功能 , SPACEx都集成了哪些功能呢?
下面这个表格给出了答案 , 情绪控制、标记面部landmark、头部转动和动作生成 , SPACEx都能很好地兼顾 , 不会像以往的模型顾此失彼 。
值得注意的是 , SPACEx生成视频的质量也整体上升了一个台阶 , 以往同类型的AI最高只能达到384的分辨率 , 而SPACEx这次已经达到了512X512 。
输入一段台词|英伟达让ai“演技”再上台阶:仅靠语音驱动1张照片说话
文章图片
兼顾这么多功能还能生成高质量视频 , SPACEx又是怎样做到的呢?具体原理
其中 , 很大一部分功劳是face-vid2vid贡献的 , 它是英伟达两年前公布的一个AI算法 。
它不仅能压缩视频的流量 , 还能保证视频的画质 。
输入一段台词|英伟达让ai“演技”再上台阶:仅靠语音驱动1张照片说话
文章图片
并且 , face-vid2vid还能让视频中的人物随意扭头 。
输入一段台词|英伟达让ai“演技”再上台阶:仅靠语音驱动1张照片说话
文章图片
不过它要求输入的是一个视频 , 而SPACEx则是一个图片 , 它俩又是怎么关联到一起的?
这得从SPACEx生成视频的过程来看 , 主要分三个阶段 。
第一个阶段可以概括为Speech2Landmarks , 即从输入的语音中来预测各个音节所对应的标准面部landmarks 。
在预测的过程中 , 还会插入对应的情绪标签 。
输入一段台词|英伟达让ai“演技”再上台阶:仅靠语音驱动1张照片说话
文章图片
预测好面部landmarks后 , 来到第二步:Landmarks2Latents , 输入各个图像的face-vid2vid关键点 , 以控制整个面部表情 。