游戏NPC不再是站桩工具人，AI凭对话内容生成3D动作，比真人更像羿阁发自凹非寺量子位|公众号

【游戏NPC不再是站桩工具人，AI凭对话内容生成3D动作，比真人更像】羿阁发自凹非寺
量子位|公众号QbitAI
你有没有看过油管很火的外国小姐姐模仿游戏NPC视频？

文章图片
△来自YouTube@Locznikiofficial
这僵硬的姿势、空洞的眼神、面瘫的表情，让游戏玩家们直呼DNA动了！
如果你也苦于此很久了，现在，网易的一项新技术将轻松改变这一局面：
只需一段语音， AI就能自动生成3D对话动作，效果甚至超越真人！
不仅能按角色的性别、说话的习惯和姿态，合成不同风格的动作，还可自由替换或指定待定动作。

文章图片
△左图为男性，右图是女性
目前，该技术已在语音合成手势动作领域的权威赛事GENEA2022上斩获第一，并被ICMI2022收录。
效果超越真人的新技术在此之前，业界最常用的语音合成对话动作技术是StyleGestures 。
该技术由美国艺电（ElectronicArts）推出，曾在2年前的第一届GENEA2020中取得第一。
但与真实动捕数据相比， StyleGestures合成的动作仍有明显的机械感，且缺少可控性，不同的语音合成效果很随机，有种碰运气的感觉。
为了解决这两个问题，网易的新技术分为离线的数据库构建和在线的语音驱动动作合成两个模块进行。

文章图片
数据库构建GENEA2022主办方发布的18小时数据集中，包括不同说话人的语音、文本和对应的全身动作。
由于没有经过人工的清洗和处理，导致动作数据中有很大一部分的动作质量较差。
因此，研究人员需要先对此进行预处理：舍弃动作质量较差的数据、完善不带手指旋转信息的动作、再通过左右对称的方式生成更多的数据集。
其次，根据说话文本单词之间的时间间隔，将连续的文本切分为短片段。
并且针对时长小于1s的连续动作进行合并，对左右半身的动作进行镜像扩充，最终得到约6000个全身动作片段，以及时长范围从1s的短句到超过10s的长句。
接下来是对动作节奏和语音节奏进行自动标注。
动作方面，说话人每做出一个变化的手势，就对应于一个节奏变化的时间点，简单来说就是特定单词重音时需要手势进行一次变化，即手势有一个明显的速度变化的过程。
因此通过计算双手速度的极小值，把每个极小值的时间点作为节奏的时间点，最后每个动作片段的节奏可以表示为长度为32位的0-1向量， 1表示手势动作变化的时间点。

文章图片
语音方面，根据语音对应文本中的每个单词时间点信息，同样可以得到语音对应的节奏。
如下图所示，每个语音片段的节奏可以表示为长度为32位的0-1向量， 1表示单词出现的时间点。

文章图片
最后，在对每个动作片段建立动作节奏后，还需要建立动作图。
动作图是一个有向图，图中的每个节点表示一个动作片段，两个节点之间的连边则表示这两个动作之间过渡的代价。
过渡代价越小，也就意味着两个动作之间的过渡越自然，这一步可以帮助将离散的动作片段合并为长的平滑过渡的全身动作序列。