手语|一群年轻人教“AI”学手语,目标是让千万聋人被“听见”( 四 )


为什么是他们?
因为手语实时翻译技术之难,恰恰源于手语之美:
独立的语法体系,意味着团队研发出的系统,除了要将单个手语词汇的意思识别出来,还得把手语语序转化为健听人习惯的汉语语序,把手语的“火灭”调整成“灭火”,才算完成翻译;独特的空间感,意味着高度相似的手语动作,在不同的环境中,可能有不同的译法,计算机要学着区分“屋外的太阳,屋里的灯”;丰富的表达方式,意味着手语识别不像语音识别那样,只需收集“声音”这一种“学习资料”,要把人工智能训练成一个合格的手语翻译,得把手势、表情、大肢体动作,通通从视频转化为数据,再“教”给计算机。所以,能充分理解、展示手语之美的听障生,是最适合给人工智能当“老师”的人。
王建源和乌力杰“教机器”学手语的本事,来自“教人”。
尽管年纪轻,他们的手语教学经验却可谓丰富。刚上大一,他们就发现,对手语心存偏见的人不在少数。不止健听人,即使在听障生内部,也有很多同学,因为从小就受“打手语就是承认自己有残疾”“要像‘正常人’一样讲话”等观点影响,对手语怀有抵触情绪。
因此,入学没多久,王建源和乌力杰就开始通过学院的手语社团、通过他们的微信公号、通过短视频平台,通过线下、线上各种渠道开班授课。像所有教语言的老师那样,讲语法、单词、句型……两个人甚至开始研究起更“超纲”的手语语言学知识:在王建源的书包里,一本《手语动词研究》和专业课教材揣在一起,有时间他就掏出来看两眼。乌力杰干脆跑去参加了中国残联主办的国家通用手语骨干教师培训班,毕业考核的时候,还拿了个总成绩第一。
一开始,他们做这一切,只是想给这门语言“正名”,想告诉大家:手语有它的特性,但绝不“特殊”,手语和它的使用者一样,都是普通的、正常的。他们并没有预料到,那些为了教人学手语做的“额外功课”,会和他们各自的专业知识相结合,成为教“AI”学手语的利器。
“我们的听障生知道手语的语法结构,还有它的一些基本要素,比如说脸上的表情到什么程度算是表达到位了,什么时候该用上肢体语言了,他们都明白。所以他们做数据收集、处理方面的工作,有天然优势。”袁甜甜很看重聋人在项目团队中发挥的作用,“咱要是叫没用过手语的健听人来收集数据、建语料库的话,那可真是费劲了!”
因为缺少聋人的参与,在手语识别和翻译技术领域,各国学界都走过弯路:比如尝试通过数据手套建立手语语料库。作为一种常见的传感器,数据手套在手势识别技术上的应用已经相对成熟——尽管成本高昂,但用手套来收集“手势”,看起来理所当然,准确率也该有保证。只可惜手语不是简单的手势:抛开表情和大动作不谈,即便是同样的手势,指向稍有不同,也可能意思迥异,这样微妙的差异,手套是识别不出来的。
意识到这一点,近年来各国推进的手语识别、翻译项目,大多采用计算机视觉的方法,利用摄像头收集数据、建立语料库,袁甜甜和她的团队也是如此。现阶段更常见的问题,一是收集的样本太少,数据集不够大。二是数据集建起来了,但没能对语料进行高质量筛选和标注。说白了,就是语料“不好使”。
袁甜甜说,人工智能深度学习的过程,有点像教小孩学说话,一个单词先得全家上阵,翻来覆去地重复,次数够了,孩子才能建立印象,“哦,这个单词叫妈妈,不管是从爸爸嘴里说出来,姥姥嘴里说出来,还是舅舅、阿姨说出来,都叫妈妈。”同样的,要让机器识别一个手语句子,也要有足够多的人面对摄像头,以不同的风格重复打同一套动作,计算机才能“记住”。