服务商|多模态时代来了!AI虚拟数字人,掀起百亿数据服务新蓝海( 二 )
如果从2D视频来采集手语运动过程中的数据,则不可避免会遇到动作被遮挡、人脸五官各区域区分不明显、空间深度信息缺失等问题。
文章插图
央视冬奥AI手语主播
综合看来,通过专业设备采集的3D多模态数据,已经成为优化特定垂直场景AI虚拟数字人的智能化水平中,为数不多的解决方案之一。
怎样获得高品质的多模态训练数据库?AI基础数据服务商的商业价值开始日益凸显。
二、优质算法“杀手锏”:高质量数据背后的技术试炼数据、算法、算力被并称为「AI三要素」,数据质量的高低,往往决定AI算法模型的性能上限。
随着AI应用逐渐普及,位于基础设施层的AI数据服务行业正发展地风生水起。根据知名市研机构IDC报告,到2025年,中国AI数据采标服务市场规模预计将增至123.4亿元。
文章插图
2020-2025年中国AI基础数据服务市场规模预测(来源:IDC中国)
但如果你认为AI基础数据服务是个纯人工作坊,那你就太小瞧这个行业的技术含量了。
尤其是多模态技术爆发以来,相应的对多模态数据需求的增长,逐步暴露了“作坊式”数据采标团队“人海”战术的短板,整个数据市场正向满足客户长尾需求演进,对服务商技术属性的要求一再加码。
如何制定与算法匹配的数据方案?如何同步采集不同模态的数据?如何处理丢失的数据?如何保证不同模态数据的精准对齐?这些都极度考验AI数据服务商的技术能力。
以获评国家工信部新一代人工智能产业创新重点任务揭榜优胜单位、国家专精特新“小巨人”企业、国家重点软件企业的海天瑞声为例,这家企业在中国AI基础数据采标服务市场中排名前列,也是A股唯一的AI数据服务上市公司,其多模态训练数据解决方案最近获得了智东西2021年度AI生产力创新奖。
根据其IPO文件,AI数据服务的核心技术可分为三个层次:训练数据生产(包括设计、采集、加工、质检),平台工具(一体化数据处理平台)以及基础研究(语音识别、语音合成、计算机视觉、训练数据集设计技术等)。
文章插图
其中,在训练数据生产层,多语种多模态训练数据设计技术、采集及标注技术是高质量训练数据的生产基础。
首先在设计阶段,为了满足AI算法的需求,AI数据服务商需深入理解客户算法和应用场景,设计与之最优匹配的多模态训练数据结构,并制定合理的原料数据采集方案。
通过设计多设备采集方案,以便同时获取人发出的语音、视频画面、精细唇部动作等不同模态的信息,便于客户匹配自身算法模型框架,实现视觉、听觉等融合的多维度交互。整个过程非常考验AI数据服务商的技术储备和工程能力。
其次,在实际的采集环节中,数据损耗是常事,且造成损耗的原因迥异,而有经验的AI数据服务商能用技术快速找出解法。
我们继续以AI手语合成主播为例,采集手语数据会用到装有传感器的手套,这些手套由于并非专为手语而设计,因此在采集过程中难免会出现数据丢失的问题,一个动作很可能要做上百帧的数据修复,耗时耗力。
发现这一问题后,海天瑞声技术研发团队迅速启动应对方案,历经半个月研发出一款与硬件采集设备相匹配的自动导出、修复工具,极大提升了数据的处理效率。
修复好数据,还要应对「精细对齐」的挑战。
在虚拟数字人、智能座舱等场景中,越来越多应用开始将语音识别和计算机视觉结合,以提高理解人类意图的准确率。
- |能跳转的工作表目录
- 铠侠(原东芝存储器)一举拿下多个奖项:存储有这性价比真感动了
- 特斯拉跑500公里只需要60度电,为什么新势力却要80度电甚至更多
- 本文转自:云南红河发布征信报告关系我们生活的诸多方面如何查询个人和企业信用报告跟小编一起...|如何查询?信用报告?红河人看这一篇就够了→
- 上线两天后预约量超2万,2022款ROG幻16到底有多香?
- 旗舰机|为何很多买得起高端机的用户却坚持用千元机?店长的回答一针见血
- 高通骁龙|从游戏手机标配到进军元宇宙,高通骁龙多年技术积累,迎来收获期
- 对于很多南方用户来说|空调功率没选对小马拉大车冬季采暖效果差很多人买空调只看价格
- 摩托罗拉|终于跟上微软!索尼PS5实用功能上线:游戏录屏导出方便多了
- 王海涛|混合云文件存储服务商焱融科技完成Pre-B轮融资,卓源资本领投