语料|让人工智能看懂手语

采访人员李家鼎
核心阅读
一边是听障人士打着手语，一边是屏幕上自动“翻译”出文字。为了让更多听障人士被“听见” ，天津理工大学鲸言创益无障碍智能科技研发团队用近5年时间，构建起视频语料库，研发“复杂场景下中国手语实时翻译系统” ，让人工智能技术带给人们更多便利。
摄像头前，张益彬左右手交替挥舞，嘴角伴随手语动作微微上扬，一旁的显示屏上， “阳光总在风雨后”7个字立刻显示出来……
张益彬是天津理工大学聋人工学院网络工程专业2019级学生，也是该校鲸言创益无障碍智能科技研发团队的成员。在这个近60人的团队中，超过一半成员是和张益彬一样的听障学生，他们用近5年时间构建起一个包含30余万条视频的语料库。如今，团队打造的“复杂场景下中国手语实时翻译系统”即将落地应用。
大胆尝试，将手语实时翻译为语音或文字
2006年，袁甜甜成为天津理工大学聋人工学院计算机系的一名教师，对她来说，教学最大的困难是交流障碍。
当时，语音识别软件尚未问世，学生又都是听障人士，袁甜甜只能硬着头皮自学手语， “一堂课下来，手舞足蹈，经常满头大汗，一望台下，学生们还是一脸茫然。 ”袁甜甜说，向学生传递信息很难，难上加难的是了解学生的想法。
第二次全国残疾人抽样调查数据显示，我国约有听障人士2780万人。 “时至今日，手语仍是听障人士的‘母语’ 。 ”袁甜甜说，尽管近年来语音识别软件普及，但表达的逻辑出发点始终绕不开健听人， “对于听障人士来说，听懂是一方面，但他们最渴望的，还是被‘听见’ 。 ”
2016年底，手语识别系统的雏形开始在袁甜甜脑海中清晰起来。 “听障人士在摄像头前打出手语，视频画面经过计算机的分析处理，转换为文字或者语音。 ”袁甜甜阐释设想，创新的逻辑出发点从健听人变成了听障人，也意味着没有成熟的方案可以借鉴。 “这是一次关乎‘表达’的探险。 ”袁甜甜说。
构建算法，给计算机编一套手语教材
如果说“手语识别”和“语音识别”还有一些相似之处，那就是二者都必须依托于丰富的语料库。如今，语音识别语料库已十分成熟丰富， “语音的语料在自然状态下非常便于获取，但手语语料却非常少。 ”袁甜甜说。
“另外，语音是一种‘单信道’的形式，而手语是‘多信道’ ，计算机要识别的不只有动作，还有表情和场景。 ”袁甜甜介绍，从对数据采集的支撑程度看，我国目前手语语言学的体系性并不强， “手语方言”比比皆是，这就给数据采集造成了极大困难。
“要将设想变为现实，就要先确立标准。 ”袁甜甜说，她和团队成员确定了先易后难的思路，基于国家通用手语的标准采集数据， “简单来讲，我们翻译的是手语里的‘普通话’ 。 ”
王建源是聋人工学院网络工程专业2018级学生，也是鲸言创益团队的初创成员。他的工作是收集手语语料，这些语料便是视频画面。 “招募志愿者，请他们来录视频，反反复复地录。 ”王建源“说” 。
王建源从小在特殊学校求学，父母也都是听障人士，他从不避讳在健听人面前打出手语，因为他觉得手语很美。 “但是，手语的美是复杂的，这个工程量太大了！”王建源笑着“说” 。
两年时间里，王建源和团队其他成员几乎每天都准时出现在学院的实验室，有时忙到很晚，干脆席地而睡。如今，他们已经收集到30余万条语料， “经过测算对比，距离中国汉语水平考试的4级水平仅差100多个词了。 ”王建源介绍。