算法|多模态时代来了！AI虚拟数字人，掀起百亿数据服务新蓝海( 三 ) 冬奥_北京冬奥

发现这一问题后，海天瑞声技术研发团队迅速启动应对方案，历经半个月研发出一款与硬件采集设备相匹配的自动导出、修复工具，极大提升了数据的处理效率。
修复好数据，还要应对「精细对齐」的挑战。
在虚拟数字人、智能座舱等场景中，越来越多应用开始将语音识别和计算机视觉结合，以提高理解人类意图的准确率。
像这样需用多个摄像头、传感器等设备来采集数据的应用，又带来新的难题——如何将不同设备记录的影像、声音等数据，实现同步标注对齐？

▲不同通道录制的语音数据不对齐情况示例大规模标注数据本来就是AI模型进一步优化性能的瓶颈，而多模态数据不仅标注工作量是单模态的数倍，还要解决多设备采集数据同步难的问题，这会进一步增加后续数据加工难度。
对此，海天瑞声的解决思路是自研多通道采集工具和数据同步技术，多通道采集工具支持4路甚至更多语音数据同时录入、自动对齐整合，数据同步技术可实现多通道采集原料数据的自动对齐，并做到多音频文件起始点自动对齐误差小于1毫秒，大幅提升训练数据生产效率和质量。
借助数据同步技术，唇形动作与声音的对齐能精确到毫秒级，这也是可以避免虚拟数字人说话时音画不同步、对不上口型等尴尬局面背后的重要因素之一。
三、为更强智能输送燃料，多模态数据强势崛起哪个AI应用不想实现更高的准确率、更自然贴心的交互能力呢？在更强智能需求的拉动下，基于多模态数据的AI算法模型日渐成为主流。

▲微软多模态预训练模型「女娲」可根据文本内容生成相应视频例如公安、金融等场景的身份鉴定，电商场景下的智能客服交互，未来自动驾驶场景的舱内舱外交互等等，数据准确率越高，有助于抵御越多的安全风险。而多模态生物识别不仅有助于保护信息安全，还能应对单一模态无法有效识别的戴口罩、手指磨茧、整容等特殊情况。

▲单一生物识别技术的特点（来源：零壹智库、东方财富证券研究所）可以看到，如今AI垂直应用场景呈现碎片化特征，对多模态数据的需求更加复杂和长尾化。
这些新业务场景需求的变化，更为考验AI数据服务商处理复杂交叉业务场景数据的综合能力。
因此AI数据服务商必须具备与客户算法团队平行沟通的技术储备，理解客户希望用数据解决什么问题、设计什么结构的模型，才能用最小代价，给出高效高质的数据集解决方案，保证客户算法取得尽可能好的落地效果。
在这样的趋势下，海天瑞声等头部品牌数据服务商的资源优势将被进一步放大。
从海天瑞声的IPO文件可以看到，这家公司已经积累了近千个自有知识产权的训练数据产品、服务微软、阿里巴巴、腾讯、百度、三星、字节跳动、亚马逊、科大讯飞、商汤科技、中国科学院、清华大学等超过500家国内外客户，并持有信息安全认证证书ISO/IEC 27701及管理体系认证证书ISO/IEC 27001 。

▲2018-2020年海天瑞声前五大客户情况（根据IPO文件整理）过去三年，海天瑞声的前五大客户呈现高复购率，足见其产品的高粘性。
无论是知名科技公司的背书，还是经年累月沉淀的多语种语言学家团队资源和稳定合作的供应商、客户等上下游资源，都使得兼具技术壁垒与业务经验的品牌数据服务商，更易成为确保多模态数据高效高质交付的首选。
结语：多模态终将主导智能产业未来AI算法要想高质量，多模态数据得跟得上。