Java|虚拟人的手工前世和AI今生( 九 )


AI驱动
动作捕捉的技术越来越完善 ,但懒人的境界是无止境的:
能不能连捕捉这一步都省了 ,用人工智能来驱动虚拟人的动作?
这一步也有了一些实践 , 如百度的AI手语主播 , 就是一个典型的AI驱动动作的虚拟人 。
AI驱动的虚拟人对于本系列关注的影视创作有着非常实际的意义:
有了AI驱动的虚拟人 , 未来的影视表演中 , 跑龙套的虚拟配角可以通过AI来驱动 。
导演只需要重点关注虚拟主角的表演 。 表演者通过动捕技术把导演所希望表达的肢体动作(当然还有表情和语言)传递到虚拟人角色身上;而打酱油的AI虚拟人群演 , 只需通过预置指令安排妥当 , 更进一步甚至只需要借助自然语义理解技术直接解析剧本的用意 , 就能配合主角虚拟人的表演进行互动 。
听起来有那么一点点科幻 , 不过这里所描述的每个环节并没有特别难啃的硬骨头 。
在这里 , 挑战者提出的质疑 , 或许并不在于语义指令如何让虚拟人AI理解 , 进而转为表演的输出——辅以交互式的调教这是一定可以做到的 。 我们并没有期望AI虚拟人真正懂得表演 , 而只要求AI在接受了几个关键点的校正后 , 能和真人动捕的虚拟人进行互动就可以了 。
真正的难度或许还是在于 , 虚拟人的表演是否足够自然 , 以骗过观众的眼睛?
目前我们看到的虚拟人AI动作驱动 , 还处于一个比较初级的状态 。 不过作者乐观地相信 , 和Metahuman的横空出世类似 , 只要辅以足够规模的人体动作数据库 , 实现以假乱真的AI驱动虚拟人动作 , 也就是早晚的事情 。
最后
关于驱动虚拟人的话题 , 其实还有两个方面没有涉及 , 一是虚拟人的语音能力 , 二是虚拟人的表情驱动 。
关于前者 , 在当前类似GPT-3这种有千亿参数规模的大型语言模型的支持下 , 虚拟人基于AI的文本沟通做到真假难辨是几乎没有难度的 。 而基于聊天文本到自然语音的生成 , 也已经有很好的解决方案了 。
在其他一些应用场合里 , 比如打造互动元宇宙时 , 一个可以自主对话的AI系统是比较重要的;而回到我们的影视创作主题 , 一个虚拟人是否能自主聊天反而没那么关键 。 更重要的是虚拟人可以根据剧本做出符合预期的表演(朗读情绪、面部表情、肢体语言等等) 。
考虑到最基本的实现 , 虚拟人的台词和动作可以通过背后表演者来表达 , 那么核心的问题就剩下一个:我们如何实现以假乱真的虚拟人表情呢?
这里暂且卖个关子 , 关于人物表情这个影视表演里重要的话题 , 留在后续第三篇里再回来讨论 。
元天空之城的虚拟人代表 Jasmine
在结束这篇已经超标的长文之前 , 顺便和大家介绍一下 , 作者自己亲手打造的MetaHuman虚拟人Jasmine 。 作为元天空之城在元宇宙里的代表 , Jasmine在未来的内容里会有更多的机会和大家见面:)
未经允许不得转载