算法|多模态时代来了!AI虚拟数字人,掀起百亿数据服务新蓝海( 二 )


要做到实时精确演示手语 , AI主播需先将语音转化成文字 , 再将健听人士的文本语序转化成手语语序 , 最后基于手语数据集进行手语合成 , 将相同的信息以视觉的形式传递给听障人士 。
在此过程中 , 获得符合需求的训练数据成为了最具挑战性的问题之一 。
这是因为 , 作为一种视觉语言 , 手语语言远比语音语言模态复杂 , 既包含手型、手部位置等手控信息 , 又包含表情、口动、体态等非手控信息 。
如果从2D视频来采集手语运动过程中的数据 , 则不可避免会遇到动作被遮挡、人脸五官各区域区分不明显、空间深度信息缺失等问题 。

▲央视冬奥AI手语主播综合看来 , 通过专业设备采集的3D多模态数据 , 已经成为优化特定垂直场景AI虚拟数字人的智能化水平中 , 为数不多的解决方案之一 。
怎样获得高品质的多模态训练数据库?AI基础数据服务商的商业价值开始日益凸显 。
二、优质算法“杀手锏”:高质量数据背后的技术试炼数据、算法、算力被并称为「AI三要素」 , 数据质量的高低 , 往往决定AI算法模型的性能上限 。
随着AI应用逐渐普及 , 位于基础设施层的AI数据服务行业正发展地风生水起 。 根据知名市研机构IDC报告 , 到2025年 , 中国AI数据采标服务市场规模预计将增至123.4亿元 。

▲2020-2025年中国AI基础数据服务市场规模预测(来源:IDC中国)但如果你认为AI基础数据服务是个纯人工作坊 , 那你就太小瞧这个行业的技术含量了 。
尤其是多模态技术爆发以来 , 相应的对多模态数据需求的增长 , 逐步暴露了“作坊式”数据采标团队“人海”战术的短板 , 整个数据市场正向满足客户长尾需求演进 , 对服务商技术属性的要求一再加码 。
如何制定与算法匹配的数据方案?如何同步采集不同模态的数据?如何处理丢失的数据?如何保证不同模态数据的精准对齐?这些都极度考验AI数据服务商的技术能力 。
以获评国家工信部新一代人工智能产业创新重点任务揭榜优胜单位、国家专精特新“小巨人”企业、国家重点软件企业的海天瑞声为例 , 这家企业在中国AI基础数据采标服务市场中排名前列 , 也是A股唯一的AI数据服务上市公司 , 其多模态训练数据解决方案最近获得了智东西2021年度AI生产力创新奖 。
根据其IPO文件 , AI数据服务的核心技术可分为三个层次:训练数据生产(包括设计、采集、加工、质检) , 平台工具(一体化数据处理平台)以及基础研究(语音识别、语音合成、计算机视觉、训练数据集设计技术等) 。

其中 , 在训练数据生产层 , 多语种多模态训练数据设计技术、采集及标注技术是高质量训练数据的生产基础 。
首先在设计阶段 , 为了满足AI算法的需求 , AI数据服务商需深入理解客户算法和应用场景 , 设计与之最优匹配的多模态训练数据结构 , 并制定合理的原料数据采集方案 。
通过设计多设备采集方案 , 以便同时获取人发出的语音、视频画面、精细唇部动作等不同模态的信息 , 便于客户匹配自身算法模型框架 , 实现视觉、听觉等融合的多维度交互 。 整个过程非常考验AI数据服务商的技术储备和工程能力 。
其次 , 在实际的采集环节中 , 数据损耗是常事 , 且造成损耗的原因迥异 , 而有经验的AI数据服务商能用技术快速找出解法 。
我们继续以AI手语合成主播为例 , 采集手语数据会用到装有传感器的手套 , 这些手套由于并非专为手语而设计 , 因此在采集过程中难免会出现数据丢失的问题 , 一个动作很可能要做上百帧的数据修复 , 耗时耗力 。