Java|虚拟人的手工前世和AI今生( 九 ) apache

AI驱动
动作捕捉的技术越来越完善，但懒人的境界是无止境的：
能不能连捕捉这一步都省了，用人工智能来驱动虚拟人的动作？
这一步也有了一些实践，如百度的AI手语主播，就是一个典型的AI驱动动作的虚拟人。
AI驱动的虚拟人对于本系列关注的影视创作有着非常实际的意义：
有了AI驱动的虚拟人，未来的影视表演中，跑龙套的虚拟配角可以通过AI来驱动。
导演只需要重点关注虚拟主角的表演。表演者通过动捕技术把导演所希望表达的肢体动作（当然还有表情和语言）传递到虚拟人角色身上；而打酱油的AI虚拟人群演，只需通过预置指令安排妥当，更进一步甚至只需要借助自然语义理解技术直接解析剧本的用意，就能配合主角虚拟人的表演进行互动。
听起来有那么一点点科幻，不过这里所描述的每个环节并没有特别难啃的硬骨头。
在这里，挑战者提出的质疑，或许并不在于语义指令如何让虚拟人AI理解，进而转为表演的输出——辅以交互式的调教这是一定可以做到的。我们并没有期望AI虚拟人真正懂得表演，而只要求AI在接受了几个关键点的校正后，能和真人动捕的虚拟人进行互动就可以了。
真正的难度或许还是在于，虚拟人的表演是否足够自然，以骗过观众的眼睛？
目前我们看到的虚拟人AI动作驱动，还处于一个比较初级的状态。不过作者乐观地相信，和Metahuman的横空出世类似，只要辅以足够规模的人体动作数据库，实现以假乱真的AI驱动虚拟人动作，也就是早晚的事情。
最后
关于驱动虚拟人的话题，其实还有两个方面没有涉及，一是虚拟人的语音能力，二是虚拟人的表情驱动。
关于前者，在当前类似GPT-3这种有千亿参数规模的大型语言模型的支持下，虚拟人基于AI的文本沟通做到真假难辨是几乎没有难度的。而基于聊天文本到自然语音的生成，也已经有很好的解决方案了。
在其他一些应用场合里，比如打造互动元宇宙时，一个可以自主对话的AI系统是比较重要的；而回到我们的影视创作主题，一个虚拟人是否能自主聊天反而没那么关键。更重要的是虚拟人可以根据剧本做出符合预期的表演（朗读情绪、面部表情、肢体语言等等）。
考虑到最基本的实现，虚拟人的台词和动作可以通过背后表演者来表达，那么核心的问题就剩下一个：我们如何实现以假乱真的虚拟人表情呢？
这里暂且卖个关子，关于人物表情这个影视表演里重要的话题，留在后续第三篇里再回来讨论。
元天空之城的虚拟人代表 Jasmine
在结束这篇已经超标的长文之前，顺便和大家介绍一下，作者自己亲手打造的MetaHuman虚拟人Jasmine 。作为元天空之城在元宇宙里的代表， Jasmine在未来的内容里会有更多的机会和大家见面:)
未经允许不得转载