算法|多模态时代来了！AI虚拟数字人，掀起百亿数据服务新蓝海( 二 ) 冬奥_北京冬奥

要做到实时精确演示手语， AI主播需先将语音转化成文字，再将健听人士的文本语序转化成手语语序，最后基于手语数据集进行手语合成，将相同的信息以视觉的形式传递给听障人士。
在此过程中，获得符合需求的训练数据成为了最具挑战性的问题之一。
这是因为，作为一种视觉语言，手语语言远比语音语言模态复杂，既包含手型、手部位置等手控信息，又包含表情、口动、体态等非手控信息。
如果从2D视频来采集手语运动过程中的数据，则不可避免会遇到动作被遮挡、人脸五官各区域区分不明显、空间深度信息缺失等问题。

▲央视冬奥AI手语主播综合看来，通过专业设备采集的3D多模态数据，已经成为优化特定垂直场景AI虚拟数字人的智能化水平中，为数不多的解决方案之一。
怎样获得高品质的多模态训练数据库？AI基础数据服务商的商业价值开始日益凸显。
二、优质算法“杀手锏”：高质量数据背后的技术试炼数据、算法、算力被并称为「AI三要素」，数据质量的高低，往往决定AI算法模型的性能上限。
随着AI应用逐渐普及，位于基础设施层的AI数据服务行业正发展地风生水起。根据知名市研机构IDC报告，到2025年，中国AI数据采标服务市场规模预计将增至123.4亿元。

▲2020-2025年中国AI基础数据服务市场规模预测（来源：IDC中国）但如果你认为AI基础数据服务是个纯人工作坊，那你就太小瞧这个行业的技术含量了。
尤其是多模态技术爆发以来，相应的对多模态数据需求的增长，逐步暴露了“作坊式”数据采标团队“人海”战术的短板，整个数据市场正向满足客户长尾需求演进，对服务商技术属性的要求一再加码。
如何制定与算法匹配的数据方案？如何同步采集不同模态的数据？如何处理丢失的数据？如何保证不同模态数据的精准对齐？这些都极度考验AI数据服务商的技术能力。
以获评国家工信部新一代人工智能产业创新重点任务揭榜优胜单位、国家专精特新“小巨人”企业、国家重点软件企业的海天瑞声为例，这家企业在中国AI基础数据采标服务市场中排名前列，也是A股唯一的AI数据服务上市公司，其多模态训练数据解决方案最近获得了智东西2021年度AI生产力创新奖。
根据其IPO文件， AI数据服务的核心技术可分为三个层次：训练数据生产（包括设计、采集、加工、质检），平台工具（一体化数据处理平台）以及基础研究（语音识别、语音合成、计算机视觉、训练数据集设计技术等）。

其中，在训练数据生产层，多语种多模态训练数据设计技术、采集及标注技术是高质量训练数据的生产基础。
首先在设计阶段，为了满足AI算法的需求， AI数据服务商需深入理解客户算法和应用场景，设计与之最优匹配的多模态训练数据结构，并制定合理的原料数据采集方案。
通过设计多设备采集方案，以便同时获取人发出的语音、视频画面、精细唇部动作等不同模态的信息，便于客户匹配自身算法模型框架，实现视觉、听觉等融合的多维度交互。整个过程非常考验AI数据服务商的技术储备和工程能力。
其次，在实际的采集环节中，数据损耗是常事，且造成损耗的原因迥异，而有经验的AI数据服务商能用技术快速找出解法。
我们继续以AI手语合成主播为例，采集手语数据会用到装有传感器的手套，这些手套由于并非专为手语而设计，因此在采集过程中难免会出现数据丢失的问题，一个动作很可能要做上百帧的数据修复，耗时耗力。