微信|虚拟人是怎么催款、写新闻、24小时播报的?|对话小冰COO( 三 )


目前 , N小黑能做到24小时不间断直播 。 看起来普通的行为 , N小黑却学习了将近两年 。

由虚拟人24小时播报的财经资讯:http://www.nbd.com.cn/corp/AiTv/index.html
小冰公司于2019年就与每日经济新闻合作金融公告摘要 , 进一步合作金融快讯 。 换句话说 , 小冰跟《每日经济新闻》的合作也不是一蹴而就 , 而是来自多年不同类型技术的沉淀 , 最终形成了一个完整的 , 用户体验还不错的 , 端到端的AI财经电视 。
N小黑诞生后 , 《每日经济新闻》的内容生产能力获得了极大提升 , 而且让过去每日经济新闻在传统纸媒领域的金融信息优势在视频端得到了放大 。 相当于 , 每经获得了更多的能力输出和更多专业内容的生产空间 。
除了教会虚拟人自我学习以外 , 在N小黑的数字孪生方面 , 小冰也突破了不少技术难题 。
举个例子 , 数字孪生需要真人面对镜头采集信息 , 如果采集信息的人表情、眼神不自然 , 机器采集到的信息就变得不准确 。
“有些人在镜头面前就会紧张或者不自然 。 这不像拍影视剧 , 前几条拍不好 , 多拍几条演员就找到状态了 。 对于机器学习来说 , 最后的学习质量跟采集的数据数量之间没有必然联系 , 并不是说采集的数据越多得出的结果就越精准 。 这就是数字孪生在采集数据方面的难题 。 ”徐元春表示 。
做好N小黑的人脸之后 , 面临第二个问题就是如何实现用文字驱动N小黑的动作 。
首先要做几个不同的模型 , 一个模型来理解人的语言、嘴型和表情关联数据;另一个模型用来训练主播本人和他的嘴型驱动;第三个模型 , 是文本驱动 , 文本转语音 , 然后进入渲染的过程 。
整个训练过程中 , 前两个模型用来监督和纠正 , 这是第二步 , 前两个模型生成的模型会纠正第三个渲染模型 。 通过不停地重复这个过程 , 让模型达到比较高的质量 。 到了第三阶段 , 输入文本和语音 , 就能直接驱动生成人的视频 。
“这其中要解决几个问题 , 一是解决语音和嘴型的关系 , 前几代技术就是人做在那里一动不动 , 全身只有嘴动 , 这肯定不行 。 说话的时候 , 脸部肌肉协调关系要解决 , 甚至还要加入人在说话的时候和眼镜的配合关系 , 以及一些手部的动作 。 今天是要把所有的动作一起训练和学习 , 才能达到真实的状态 。 ”徐元春表示 。
小冰冰是一家IP公司
如今 , 市面上的技术公司生成一张虚拟人脸的算法不会有太大差异 , 不同的是 , 各家公司在数字上的选择 。 “对于小冰来说 , 数字人具备一定的专业能力 , 逼近真人 , 是一种正常现象 , 如果做不到这点 , 才说明虚拟人不正常 。 ”
以崔筱盼为例 , 她并不是一张普通人脸 。 “从轮廓 , 骨架上来说 , 都很上镜 。 就是因为我们掌握了模特公司的数据 , 而不是采集普通人的数据 。 ”
此外 , 小冰一直在绘画艺术方面做各种算法研究 。 因此 , 小冰在虚拟人审美、构图、颜色搭配等方面 , 积累了很多自己的理解 , 并且沉淀技术 。

小冰公司旗下虚拟人夏语冰
“大家看到的可能是一张脸 , 但每一张脸背后的技术含量是不同的 。 做出一个虚拟人脸并不难 , 关键在于能否生成大家都觉得好看的脸 。 这是一个关键技术指标 。 小冰目前可以生成大众审美的脸 , 也可以生成小众审美的脸 。 从某种程度上说 , 我们做了艺术类的各种内容生产 , 再去做人脸的时候 , 对审美就有更深的理解 。 ”
不仅仅在审美上 , 单就技术层面来看 , 小冰的技术在N小黑身上实现了可用性和完整性的统一 。