关注 2021年12月|保护川藏少数民族文化，他们用AI打造一本全自动“濒危语言词典” 关注

关注
2021年12月，中国语言资源保护工程公布最新数据，经过5年的调查、采集、翻译与保存，语保工程一期收集到123种语言和全国各地方言的原始语料数据1000多万条，其中音视频数据各500多万条，这其中就包括四川凉山彝族自治州和雅安地区的藏民熟悉的“尔苏语” 。

文章图片
目前全球现存7000余种有记录的语言中，已经有超过400种濒临灭绝，超过200种处于接近濒危的状态， “比如尔苏语，目前会这种语言的只有不到2万人，超过一半都是70岁以上、不会说汉语的文盲老人。我们想要去翻译、保存，即必须找到同时会尔苏语和汉语的人来进行“人工对齐” 。但如果遇到更生僻、更濒危的语言，找不到会两种语言的人怎么办？我们现在就是希望通过AI算法，代替人工做这件事。 ”彭同学解释到。

文章图片
2020年，来自英国谢菲尔德大学的彭同学及其团队，利用专业知识在飞桨平台建立模型，并基于无监督跨语言词向量算法，成功地实现了对濒危语言词典的自动化生成。项目成果不仅拿下了第三届“中国高校计算机大赛人工智能创意赛”海外赛区的一等奖、最佳案例奖和优质开源奖。
后续，他们还把项目的源码、文本说明和相关权利全部捐赠给了国家语保工程的“语言典藏”项目，帮助完善语言翻译工具链，在内测阶段已经获得了较为理想的翻译结果，未来，或将更大规模地运用在少数民族语音和地方方言的保护工作上。
【关注 2021年12月|保护川藏少数民族文化，他们用AI打造一本全自动“濒危语言词典”】谈到为什么想到用AI保护濒危语言，彭同学觉得这是一种对文明传承的情怀。从大学的计算机专业，到博士期间研究“计算机语言学”并将自然语言处理和表示学习作为研究方向，彭同学一直有一个通过AI帮助一线预报工作者减轻工作量，守护濒危语言的愿望。

文章图片
彭同学介绍称， “具体来说，我们选择了选取了独龙、尔苏、嘉绒、撒拉这四种数据较为丰富的语言作为实验对象。每种语言含有的句子数量均超过三千条。算法分为四个步骤。第一是对少数民族濒危语言语料进行采集；第二，利用飞桨平台能力构建主题一致的现代汉语数据集，因为少数民族语料大多围绕神话传说、民间故事、民歌和日常会话，所以团队最终选择了《故事会》近200期文本内容进行开源。第三步就是在低资源条件下训练单语词向量，最终借助飞桨实现跨语言词向量对齐算法，全自动地生成大规模“汉语-少数民族语言”词典。 ”
而其中最重要的算法，其作用就是把少数民族语言单词对应的“向量” ，与汉语等大语种的“向量” ，通过数学的运算、变形，在高维空间中形成两组被贴近的“向量云” ，再进行一对一的抽取和翻译。
通过几何分布的方法，来解决传统需要双语学者才能做到的翻译工作，不仅能节省人力物力，也能很大程度上提升翻译的精准度。

文章图片
注：高维度空间里词向量的可视化模块
说起百度飞桨平台，彭同学表示自己早在18年就进行了注册，当时的用户id序列是八十多，而现在已经有几十万的用户注册使用了。对于在飞桨平台搭建一个AI算法，彭同学觉得这就像在搭积木，原来需要自己去砍树去打磨，现在拿起积木就能动手。