最高识别率可达99%!刚刚火山语音ASR技术,实力获得国检中心权威检测( 二 )


该方案不仅能够高效识别方言与歌曲 , 还可以针对语种混合以及说话唱歌混合的场景有不错的识别效果;实践过程中团队通过对用户创作内容的音频特性以及领域分析 , 凭借算法优化大大提升语音识别对于噪声场景、多人说话等复杂场景的表现 。 尤其面对移动端用户针对功能响应时间的较高要求 , 即希望字幕可以既快且准 , 还做了大量的工程优化和策略 , 1分钟的视频只需2-3秒即可完成 。
最高识别率可达99%!刚刚火山语音ASR技术,实力获得国检中心权威检测
文章图片
智能字幕解决方案的展现
除此之外为应对人们对于音频信息的获取效率远低于文本信息的获取效率的情况 , 火山语音又强力推出了“千言转文字 , 一字胜千言”的实时字幕解决方案 , 通过“语音识别+语音翻译”的AI链路让跨国家、跨语言交流变得更加流畅;凭借自动生成会议记录与纪要 , 做到大大提升与会者的工作效率 , 大幅减少会后整理和会中记录的工作量 。
值得提及的是 , 在2022年卡塔尔世界杯期间 , 火山语音的ASR技术能力还同步支持了上线抖音的“无障碍字幕直播间” , 截至12月19日决赛 , 已有累计超过1905万人在该直播间观看了球赛 , 累计观看次数超过2624万次 。
赛事期间 , 火山语音团队通过自研推出的端到端的流式语音识别系统 , 着力解决了世界杯比赛场景中外国球员教练员的人名识别等难题 , 通过对足球相关领域专有名词、球队和球员名称等术语进行自动化语料挖掘 , 凭借语言模型干预和自动化热词干预完成专项优化 , 从而发挥更好的识别效果;还凭借对解说场景的分析以及对现场原声的分析进行模型调优 , 做到在“解说+现场原声+bgm”的复杂场景下也能准确识别 , 为观众呈现更佳的字幕效果 , 带来更好的观赛体验 。
最高识别率可达99%!刚刚火山语音ASR技术,实力获得国检中心权威检测
文章图片
无障碍字幕直播间展示
伴随不断的创新发展 , 火山引擎语音识别产品已广泛应用于视频娱乐、办公会议、硬件交互、智能客服等诸多行业 , 为用户提供了优质且有前景的语音识别解决方案 。 可以想见 , 未来在火山语音不断探索前沿科技与业务场景的高效结合的基础上 , 持续为用户体验和业务增长注入创新势能以实现更大价值乃是大势所趋 。 返回搜狐 , 查看更多
最高识别率可达99%!刚刚火山语音ASR技术,实力获得国检中心权威检测】责任编辑: