算法|多模态时代来了!AI虚拟数字人,掀起百亿数据服务新蓝海( 三 )


发现这一问题后 , 海天瑞声技术研发团队迅速启动应对方案 , 历经半个月研发出一款与硬件采集设备相匹配的自动导出、修复工具 , 极大提升了数据的处理效率 。
修复好数据 , 还要应对「精细对齐」的挑战 。
在虚拟数字人、智能座舱等场景中 , 越来越多应用开始将语音识别和计算机视觉结合 , 以提高理解人类意图的准确率 。
像这样需用多个摄像头、传感器等设备来采集数据的应用 , 又带来新的难题——如何将不同设备记录的影像、声音等数据 , 实现同步标注对齐?

▲不同通道录制的语音数据不对齐情况示例大规模标注数据本来就是AI模型进一步优化性能的瓶颈 , 而多模态数据不仅标注工作量是单模态的数倍 , 还要解决多设备采集数据同步难的问题 , 这会进一步增加后续数据加工难度 。
对此 , 海天瑞声的解决思路是自研多通道采集工具和数据同步技术 , 多通道采集工具支持4路甚至更多语音数据同时录入、自动对齐整合 , 数据同步技术可实现多通道采集原料数据的自动对齐 , 并做到多音频文件起始点自动对齐误差小于1毫秒 , 大幅提升训练数据生产效率和质量 。
借助数据同步技术 , 唇形动作与声音的对齐能精确到毫秒级 , 这也是可以避免虚拟数字人说话时音画不同步、对不上口型等尴尬局面背后的重要因素之一 。
三、为更强智能输送燃料 , 多模态数据强势崛起哪个AI应用不想实现更高的准确率、更自然贴心的交互能力呢?在更强智能需求的拉动下 , 基于多模态数据的AI算法模型日渐成为主流 。

▲微软多模态预训练模型「女娲」可根据文本内容生成相应视频例如公安、金融等场景的身份鉴定 , 电商场景下的智能客服交互 , 未来自动驾驶场景的舱内舱外交互等等 , 数据准确率越高 , 有助于抵御越多的安全风险 。 而多模态生物识别不仅有助于保护信息安全 , 还能应对单一模态无法有效识别的戴口罩、手指磨茧、整容等特殊情况 。

▲单一生物识别技术的特点(来源:零壹智库、东方财富证券研究所)可以看到 , 如今AI垂直应用场景呈现碎片化特征 , 对多模态数据的需求更加复杂和长尾化 。
这些新业务场景需求的变化 , 更为考验AI数据服务商处理复杂交叉业务场景数据的综合能力 。
因此AI数据服务商必须具备与客户算法团队平行沟通的技术储备 , 理解客户希望用数据解决什么问题、设计什么结构的模型 , 才能用最小代价 , 给出高效高质的数据集解决方案 , 保证客户算法取得尽可能好的落地效果 。
在这样的趋势下 , 海天瑞声等头部品牌数据服务商的资源优势将被进一步放大 。
从海天瑞声的IPO文件可以看到 , 这家公司已经积累了近千个自有知识产权的训练数据产品、服务微软、阿里巴巴、腾讯、百度、三星、字节跳动、亚马逊、科大讯飞、商汤科技、中国科学院、清华大学等超过500家国内外客户 , 并持有信息安全认证证书ISO/IEC 27701及管理体系认证证书ISO/IEC 27001 。

▲2018-2020年海天瑞声前五大客户情况(根据IPO文件整理)过去三年 , 海天瑞声的前五大客户呈现高复购率 , 足见其产品的高粘性 。
无论是知名科技公司的背书 , 还是经年累月沉淀的多语种语言学家团队资源和稳定合作的供应商、客户等上下游资源 , 都使得兼具技术壁垒与业务经验的品牌数据服务商 , 更易成为确保多模态数据高效高质交付的首选 。
结语:多模态终将主导智能产业未来AI算法要想高质量 , 多模态数据得跟得上 。