最高识别率可达99%!刚刚火山语音ASR技术,实力获得国检中心权威检测

2023年1月9日 , 由国家工业信息安全发展研究中心举办的以“智融应用质惠未来”为主题的人工智能高质量融合与安全应用研讨会在京举行 。
会上针对技术评测以及标准化工作带来的成果 , 研究中心公布了一众通过AI国检中心检验检测的优秀行业企业 , 其中火山引擎语音识别产品榜上有名 , 获得国家语音及图像识别产品质量检验检测中心(以下简称“AI国检中心”)颁发的语音识别增强级检验检测证书 , 在语音识别的基本要求以及扩展要求上均已达AI国检中心的最高等级标准 。
最高识别率可达99%!刚刚火山语音ASR技术,实力获得国检中心权威检测
文章图片
本次技术评测涵盖中文普通话、方言混合、语种混合识别在低噪和高噪唤醒下的识别效果和准确率等多个角度 , 经专业评测后最高语音识别字正确率可达99.54% , 集中体现了在火山语音支持下的语音识别技术能力和产品方案成熟度获得了业界认可 。
作为我国质检系统在人工智能领域的首家、也是唯一的国家级语音及图像产品质量检验检测机构 , AI国检中心始终致力于推动智能语音产业的健康发展 。 本次获得AI国检中心的权威检测 , 也充分表明了火山语音的语音识别技术能力已达行业领先水平 。
长期以来 , 火山语音(字节跳动AILabSpeech&Audio智能语音与音频团队)将打磨多年的AI语音技术能力以及全栈语音产品解决方案面向市场并通过火山引擎开放给外部企业 , 目前已经覆盖多种语言和方言 , 涵盖音视频、有声阅读、语音交互、游戏、广告等众多行业应用场景 , 为抖音、剪映、飞书、番茄小说、Pico等核心业务提供了领先的AI语音能力应用与拓展 。
本次参评的火山引擎语音识别产品为火山语音团队自主研发的端到端流式语音识别系统 , 主要涵盖语音识别、断点检测、逆文本标准化、智能分句以及标点、口语顺滑等模块 , 对口音、复杂的声学场景都体现了更强的鲁棒性 , 对不同领域词汇的识别率以及推理速度、识别结果展示速度等均比其他竞品有大幅提升 。
最高识别率可达99%!刚刚火山语音ASR技术,实力获得国检中心权威检测
文章图片
混合模型和端到端模型的对比示意图
众所周知语音识别主要负责将音频转换成文字 , 为了兼顾效率和成本 , 火山语音团队率先基于RNN-T框架 , 通过大量训练数据的积累和持续的算法优化 , 自研推出的端到端的流式语音识别系统 , 有效规避传统语音识别系统中涉及的大量人工假设 , 采用了业界领先的Conformer结构 , 做到同时对局部信息以及全局信息进行建模 , 识别效果较传统的CNN、LSTM和DFSMN等结构都有大幅提升 。
此外团队又从模型角度优化了Conformer的训练和推理耗时 , 主要通过下采样和AttentionMask等方式 , 凭借自研的模型压缩框架 , 自动对模型进行裁剪和量化 , 在降低计算复杂度的同时做到效果基本无损;并提出将上下文信息引入语音识别系统中来提升系统的识别效果 , 更充分的将对话历史信息融入到RNN-T模型中 , 目前该论文已成功入选全球最大的综合性语音信号处理盛会Interspeech2022 。
最高识别率可达99%!刚刚火山语音ASR技术,实力获得国检中心权威检测
文章图片
(a)基础RNN-T结构(b)引入对话历史到predictor的结构(c)引入对话历史到encoder的
如今在火山语音ASR技术支持下 , 火山引擎语音识别产品已广泛应用于金融、传媒、互娱、游戏等多类应用场景中 , 例如在短视频成为全民时尚的今天 , 为了改变视频内容生产过程中传统添加字幕方式带来的反复听写校对以及逐帧对齐的费时费力 , 与过程中需要精通多语言并熟悉字幕文件的制作的高门槛要求 , 火山语音自研推出了智能字幕解决方案 。