框架|科大讯飞荣获OpenASR国际低资源多语种语音识别挑战赛冠军中南大学|长江|湖南大学|产业

文章插图
11月10日，由美国国家标准与技术研究院NIST发起的OpenASR挑战赛落下帷幕，科大讯飞-中科大语音及语言信息处理国家工程实验室联合团队参加了所有15个语种受限赛道和7个语种非受限赛道，全部取得第一。
继前不久荣获多语言理解评测XTREME冠军之后，科大讯飞在多语种领域再次取得突破，在探索人机交互更自然、人人沟通无障碍的征程中又迈出了坚实的一步，也为中国多语种语音语言技术赶超国际先进水平、中国智能制造的全球化奠定了坚实的基础。
从大语种向低资源多语种拓展
【框架|科大讯飞荣获OpenASR国际低资源多语种语音识别挑战赛冠军】近年来，随着深度学习技术的进步，汉语、英语等大语种语音识别技术日趋成熟，并获得广泛的应用。
相比之下，小语种语音识别因其语音数据资源难以获取、难以标注、难以评估、语言专家稀缺等原因，已经成为世界性的研究难题，距离实用门槛仍有较大差距。
与NIST此前组织的其他赛事相比，OpenASR更加关注小语种语音技术，探索如何使用少量的数据达到较好的效果，同时考察低资源语音识别基础算法在多个语种上的推广性。自2020年启动以来，吸引了加拿大蒙特利尔信息科技研究中心、新加坡科技研究局、清华大学、腾讯等国内外知名研究机构和企业参与其中。
本次比赛共包含15个语种，涵盖受限赛道、受限附加赛道和非受限赛道。
表1：15个语种信息

文章插图
其中受限赛道为各参赛单位必选项，每个语种只能使用组委会提供的10小时标注语音识别数据，受限附加赛道在受限赛道的基础上允许使用开源的预训练模型，而非受限赛道可以使用受限数据以外的数据。
科大讯飞-中科大联合团队在比赛中提出了基于语音和文本统一空间表达的半监督语音识别框架（Unified Spatial Representation Semi-supervised ASR，USRS-ASR），获此佳绩也验证了该算法良好的推广性。
图1：联合团队全部15个语种受限赛道成绩

文章插图
图2：联合团队参加的7个语种非受限赛道成绩

文章插图
领先技术亮相国际赛场
对于低资源语种而言，除了语音数据量较小外，其发音词典大小、语料丰富性、标注准确度都远不及常规水平。本次比赛中各个语种数据主要来自电话信道，口语化特征十分明显，对话风格非常自由，也使得语音识别难上加难。
在受限赛道上，由于每个语种只有10小时语音数据，如何使用少量文本数据，利用无监督的方法增加语音训练数据的多样性至关重要。
科大讯飞-中科大联合团队创新运用Flow-TTS语音合成进行训练数据扩增，并使用语音属性解耦技术保证合成语音的多样性。结果显示，使用上述无监督数据扩增方案，能够稳定、显著地提升低资源语音识别任务的效果。
而在非受限赛道上，虽然参赛者可以利用公开的语音数据，但数据总量仍只有数百小时，而且语音数据和文本数据的量级差距十分明显，这对于端到端识别框架来说，弊端更为明显。
为了在端到端统一框架下，充分使用少量语音数据和海量文本数据，科大讯飞-中科大联合团队提出了基于语音和文本统一空间表达的半监督语音识别框架USRS-ASR。
首先，对于海量文本数据的使用，创新设计了文本掩码语言模型任务、合成数据语音识别两个目标，两个任务联合训练以充分利用海量无监督文本；其次，设计了共享语言解码模块，实现了语音和文本隐层表达空间的统一，大大缓解了低资源语种的数据稀疏问题。