服务商|多模态时代来了!AI虚拟数字人,掀起百亿数据服务新蓝海( 三 )
像这样需用多个摄像头、传感器等设备来采集数据的应用,又带来新的难题——如何将不同设备记录的影像、声音等数据,实现同步标注对齐?
文章插图
不同通道录制的语音数据不对齐情况示例
大规模标注数据本来就是AI模型进一步优化性能的瓶颈,而多模态数据不仅标注工作量是单模态的数倍,还要解决多设备采集数据同步难的问题,这会进一步增加后续数据加工难度。
对此,海天瑞声的解决思路是自研多通道采集工具和数据同步技术,多通道采集工具支持4路甚至更多语音数据同时录入、自动对齐整合,数据同步技术可实现多通道采集原料数据的自动对齐,并做到多音频文件起始点自动对齐误差小于1毫秒,大幅提升训练数据生产效率和质量。
借助数据同步技术,唇形动作与声音的对齐能精确到毫秒级,这也是可以避免虚拟数字人说话时音画不同步、对不上口型等尴尬局面背后的重要因素之一。
三、为更强智能输送燃料,多模态数据强势崛起哪个AI应用不想实现更高的准确率、更自然贴心的交互能力呢?在更强智能需求的拉动下,基于多模态数据的AI算法模型日渐成为主流。
文章插图
微软多模态预训练模型「女娲」可根据文本内容生成相应视频
例如公安、金融等场景的身份鉴定,电商场景下的智能客服交互,未来自动驾驶场景的舱内舱外交互等等,数据准确率越高,有助于抵御越多的安全风险。而多模态生物识别不仅有助于保护信息安全,还能应对单一模态无法有效识别的戴口罩、手指磨茧、整容等特殊情况。
文章插图
单一生物识别技术的特点(来源:零壹智库、东方财富证券研究所)
可以看到,如今AI垂直应用场景呈现碎片化特征,对多模态数据的需求更加复杂和长尾化。
这些新业务场景需求的变化,更为考验AI数据服务商处理复杂交叉业务场景数据的综合能力。
因此AI数据服务商必须具备与客户算法团队平行沟通的技术储备,理解客户希望用数据解决什么问题、设计什么结构的模型,才能用最小代价,给出高效高质的数据集解决方案,保证客户算法取得尽可能好的落地效果。
在这样的趋势下,海天瑞声等头部品牌数据服务商的资源优势将被进一步放大。
从海天瑞声的IPO文件可以看到,这家公司已经积累了近千个自有知识产权的训练数据产品、服务微软、阿里巴巴、腾讯、百度、三星、字节跳动、亚马逊、科大讯飞、商汤科技、中国科学院、清华大学等超过500家国内外客户,并持有信息安全认证证书ISO/IEC 27701及管理体系认证证书ISO/IEC 27001。
文章插图
2018-2020年海天瑞声前五大客户情况(根据IPO文件整理)
过去三年,海天瑞声的前五大客户呈现高复购率,足见其产品的高粘性。
无论是知名科技公司的背书,还是经年累月沉淀的多语种语言学家团队资源和稳定合作的供应商、客户等上下游资源,都使得兼具技术壁垒与业务经验的品牌数据服务商,更易成为确保多模态数据高效高质交付的首选。
结语:多模态终将主导智能产业未来AI算法要想高质量,多模态数据得跟得上。
过去一年,应用场景的创新和机器学习算法的流行继续带动训练数据需求爆发式增长。
在多模态大模型、虚拟数字人等热门技术方向的驱动下,持续探索更强智能的AI应用,对高质量多模态训练数据资产的需求愈发迫切。
- |能跳转的工作表目录
- 铠侠(原东芝存储器)一举拿下多个奖项:存储有这性价比真感动了
- 特斯拉跑500公里只需要60度电,为什么新势力却要80度电甚至更多
- 本文转自:云南红河发布征信报告关系我们生活的诸多方面如何查询个人和企业信用报告跟小编一起...|如何查询?信用报告?红河人看这一篇就够了→
- 上线两天后预约量超2万,2022款ROG幻16到底有多香?
- 旗舰机|为何很多买得起高端机的用户却坚持用千元机?店长的回答一针见血
- 高通骁龙|从游戏手机标配到进军元宇宙,高通骁龙多年技术积累,迎来收获期
- 对于很多南方用户来说|空调功率没选对小马拉大车冬季采暖效果差很多人买空调只看价格
- 摩托罗拉|终于跟上微软!索尼PS5实用功能上线:游戏录屏导出方便多了
- 王海涛|混合云文件存储服务商焱融科技完成Pre-B轮融资,卓源资本领投