Meta 发布 AI 语言处理模型,最高能识别 128 种语言

作为元宇宙最坚定的支持者之一 , Facebook在上个月宣布改名Meta , 此后便新动作不断 , 先是推出了一个触觉手套 , 试图让人们在VR世界中也能体验到触觉变化 。
Meta 发布 AI 语言处理模型,最高能识别 128 种语言
文章图片
触觉之后 , Meta又盯上了语言 , 它要让人们在虚拟世界中也可以无障碍沟通 , 哪怕双方使用的语言不同 , 你说英语 , 我说中文都能互相理解 。
就这样XLS-R来了 , 它是Meta最近发布的一个AI语言处理模型 , 最高能识别128种语言 , 目前已经公布了网页体验版 。
Meta 发布 AI 语言处理模型,最高能识别 128 种语言
文章图片
▲XLS-R网页体验版仅支持语音输入
体验版的功能有一定缺失 , 仅支持将22种语言翻译为16种语言 , 我试了下最常见的英译中 , 一段7秒左右英文语音 , XLS-R还是能相对准确地识别 , 中文翻译和英文识别都基本正确 , 两者耗时都在1.4秒左右 , 并不算短 。
Meta 发布 AI 语言处理模型,最高能识别 128 种语言
文章图片
Meta 发布 AI 语言处理模型,最高能识别 128 种语言
文章图片
对比市面上常见语音翻译应用 , 这个速度和转译表现其实中规中矩 , 都对口语清晰度有要求 , 一旦语速稍微快一些 , 就比较难理解 , 转译会出错 。
XLS-R的潜力体现在多语言通用AI模型上 , 据Meta该技术基于wac2vec2.0预训练模型 , 能将语音拆成拆成25毫秒的基本单元来分析 , 利用上下文转换语音内容 , 提升识别准确度 。
言 , 转换准确率提升了不少 , 经过通过436000小时的公开录音训练后 , 才有如今的XLS-R 。
Meta 发布 AI 语言处理模型,最高能识别 128 种语言
文章图片
▲XLS-R识别单词错误率更低
XLS-R仅仅用一种语言模型就可以转换128种语言 , 和特殊领域使用特殊模型的常见做法不同 , 极大地提升了通用性 。 在官方博客中 , Meta表示它们的目标是用单一模型识别全球7000多种语言 , 从而改进转换算法 。
Meta 发布 AI 语言处理模型,最高能识别 128 种语言】这是一个新的开始 , 离真正成为Meta所设想的虚拟世界基础组成部分还比较难 , 这不仅仅和技术有关 , 设备算力也是限制 。
作为同在在自然语言识别领域拥有大量技术储备的Google , 其实比Meta更早在消费级设备上支持多语种翻译功能 , Pixel6系列支持liveTranslate功能 , 可以在聊天软件中进行翻译 , 无障碍地与外语朋友交流 。
只是liveTranslate功能支持的语言并不算多 , 主要还是英语、德语、日语之间的翻译 , 哪怕Pixel6所使用的Tensor芯片在AI性能方面已经是冠绝全球 , 达到了骁龙888+的三倍 。
只有联网liveTranslate功能才能做到支持48种语言 , 而使用云计算技术的Google翻译也仅支持108种语言 , 离7000种语言很远 。
元宇宙离我们仍然有一段距离 , 不过XLS-R等技术作为Meta口中虚拟世界的基础建设之一 , 或许能在其他领域发挥作用 , 现在它已经发布了XLS-R预训练模型的微调教程 , 让业内人士可以基于它进行微调以便应用到具体的工作当中 。
或许不久之后 , 我们能看到越来越多的应用支持更多语种的语音转译功能 。
Meta 发布 AI 语言处理模型,最高能识别 128 种语言
文章图片