虚拟主播|逐渐破圈后,虚拟主播距产业成熟有多远?( 三 )



过去多年 , 技术成本一直是行业难题 。 以单次成本来看 , 虚拟主播视觉设计方面所要用到的动作捕捉、表情捕捉、实时渲染等设备 , 少则数万多则数十万 , 几分钟视频成本则超过100万 , 对个人或者小型团队来说 , 几乎难以承担 。

同时 , 2D真人虚拟主播相比二次元虚拟主播 , 需要更强的技术支撑 , 以此满足高时效性、高反应度的实时呈现 , 达到“以假乱真”画面效果——这也是目前绝大部分虚拟主播 , 都选择二次元领域 , 只有科大讯飞、百度、阿里等少部分科技企业 , 选择在2D真人虚拟主播方向发力主要原因 。

大厂入局带来的改变很明显 , 依靠动捕、交互等AI技术的多年积累 , 为用户提供平台和工具 , 让虚拟主播技术成本、门槛明显降低 , 最终让虚拟主播实现了可快速批量生产IP , 降本增效 。



以科大讯飞为例 , 去年全球1024开发者节上 , 董事长刘庆峰透露科大讯飞5分钟就可以生成一个虚拟主播 。 今年全球1024开发者节发布业界首个虚拟人交互平台后 , 刘庆峰表示1分钟就可以定制一个虚拟主播 。

从5分钟到1分钟定制1个虚拟主播 , 意味着企业、创业者、个人用户都可以通过虚拟人交互系统低门槛定制虚拟形象 , 从降低生产成本来说无疑是一个重大提升——背后 , 主要得益于科大讯飞在AI技术上的20多年沉淀 , 在语音识别、语义理解等多种AI技术上的领先 , 以及AI技术本身的不断创新、迭代升级 。

02
从1到10 , 虚拟主播产业成熟挑战
随着虚拟主播逐渐破圈 , B端品牌合作到C端流量变现的商业模式 , 最近两年也逐渐清晰 , 因此成为国内创业风口 , 出现了不少专门运营、营销虚拟主播的公司 。

比如虚拟艺人厂牌VirtuaReal下属艺人七Nana7mi , 今年双11售卖同款外套 , 当日成交额超过130万 。 这意味着 , 虚拟主播带来新的商业价值有很大可能性 。

不过 , 迄今为止 , “柳夜熙”、洛天依在国内都只有一个 , 更别说创造出像初音未来、绊爱这样在全球二次元爱好者有极高影响力的虚拟角色 。 而在TOB上的应用 , 大部分也只是停留在播报、主持等初级阶段 。

相比日本早就形成标准化的成熟产业链 , 目前国内虚拟主播产业整体还在初级阶段 , 想从1到10走向成熟 , 在技术、内容、商业化、产业链上都还有很多挑战 。

技术是虚拟主播最底层的逻辑 , 也是用户体验关键 。 尽管现在国内AI虚拟主播一般都能够自行学习 , 可以通过语音、文字反馈等方式和用户进行交互 , 但在如何更好凸显人设、性格等方面 , 比如对细节、生活化等特征的理解和打磨上 , 让虚拟主播拥有极强偶像效应 , 以及更强感染力、更交互 , 还有不少距离 。



这方面技术门槛相当高 。 以科大讯飞虚拟人交互平台为例 , 从建立人物模型开始 , 要经过原画设定、模型建模、骨骼表情绑定等诸多复杂步骤 。 一句语音反馈 , 不只是将文本“翻译”为语音输出 , 还要通过算法生成人物五官微表情 , 动态调整虚拟人的嘴型、眼部细节、面部肌肉等 。 还要通过大量训练 , AI才能更懂人物表情语言 , 在说某句话时 , 根据场景自动预测表情 , 最终才能呈现出媲美真人的面部特征 。

对于技术而言 , 最难理解的是人类行为和情感 。 科大讯飞相关人士就表示 , 对于AI交互产品来说 , 只有综合利用多模态信息才能更准确地理解人类行为 。 但现阶段受限于语义鸿沟、异构鸿沟、数据缺失等原因 , 多模态研究还有一定难度 。