ai|网易研究五年的AI技术,应用一次最多能省几十万?( 五 )





最后 , 这套算法还可以支持一些虚拟主播场景 , 比如《第五人格》秃秃杯电竞比赛的虚拟解说、云音乐look直播的虚拟主播 , 用的都是我们这套技术 。

另外 , 我们还配合高精度三维扫描设备 , 测试了面部动捕算法在超写实模型上的效果 。 我们雇了一位国外模特扫描模型 , 用模特录制的视频来驱动他对应的角色 , 以便更好地对比表情还原度 。



右边这位模特是我们部门的一位同事 。 从效果上可以看到 , 不管是扫描重建还是面部捕捉 , 我们的技术都足够支持这种高精度场景 。

跟面部动捕类似 , 我们也做了一套轻量级基于普通摄像头的身体动捕系统 , 支持单视角、多视角输入 , 原理类似于前面的面部捕捉 , 同样也会配合一些CV模型提升优化结果的合理性 。 这个项目我们打磨了两年时间 , 目前效果和稳定性都相当不错 。



这是在冬奥结束之后 , 我们用这项技术为《哈利波特:魔法觉醒》项目制作的视频 , 当时很快就冲上了微博热搜 。



如果按传统制作方式 , 这种营销策划案是不太可能实现的 , 因为要找到能还原这套动作的演员 , 还要约演员和动捕棚的档期 , 一套下来没有六位数开销和一个多月制作周期的话 , 是很难完成的 。 但是用这套AI方案 , 成本就可以忽略不计 。

这是更早时候 , 我们与《大话西游》项目组合作的一段视频 。 当时请了B站舞蹈区的一位知名Up主 , 用三部手机录了这套舞蹈动作 , 用我们的动捕算法得出数据 , 重定向到《大话西游》的角色上 。



另外 , 我们还为《明日之后》项目组制作了一些动画素材 , 只用了一个单目摄像头捕捉身体和面部动作 , 并且只要拍得足够清晰 , 手指动作也可以准确捕捉 。



除了基于视频输入以外 , 我们还做了基于音频输入生成动画的技术 , 比如从语音输入生成角色面部和肢体动画的工具链 。 这项技术我们在2018年就已经应用于不少游戏 , 当时做得还比较简单 , 只支持口型和几种简单的基础情绪 。 后来我们做了持续的基础升级和迭代 , 增加了语音驱动头动、眼动、手动、面部微表情 , 还有肢体动作等等 。

另一个从音频输入生成动画的工作 , 是基于音乐生成舞蹈动作 。 这项工作我们从2018年开始研究 , 经过几年迭代最终形成了一套方案 , 详细的技术方案在论文里有介绍 , 这里主要展示实际落地效果:首先是二次元女团舞;



这是一段韩舞的动画 , 也是网易CC直播年度盛典的开场舞蹈 。



另外 , 我们也会用一些网络热门歌曲合成舞蹈 。 去年圣诞节时 , 我们用I.F.制作的B站互动视频 , 其中所有动画都是通过AI技术生成的 。 目前这套解决方案已经相当成熟 , 在内部经过了大量项目的验证 , 也在持续为项目组输出动作资源 。

04 结语 最后简单总结一下:AI技术对程序化美术资源生成能产生明显的促进作用 。 而且根据我们的实践经验 , 在人脸、人体的模型和动画方面 , 它甚至可以在一定程度上取代一些初级执行向美术的工作 。 并且利用我们的AI方案 , 普遍可以比传统方案提升5-10倍的制作效率 。

但目前想让AI从事一些更高级的工作还比较困难 , 主要难点是高质量数据比较稀缺 。 大家都知道数据是AI的核心 , AI模型有多少能力 , 很大程度上取决于人给了模型多少有价值的数据 。 但是游戏资产的获取门槛还是很高的 , 这跟照片、语音、文字这种所有人日常都在生产的数据不太一样 。