语料|让人工智能看懂手语

采访人员 李家鼎
核心阅读
一边是听障人士打着手语 , 一边是屏幕上自动“翻译”出文字 。 为了让更多听障人士被“听见” , 天津理工大学鲸言创益无障碍智能科技研发团队用近5年时间 , 构建起视频语料库 , 研发“复杂场景下中国手语实时翻译系统” , 让人工智能技术带给人们更多便利 。
摄像头前 , 张益彬左右手交替挥舞 , 嘴角伴随手语动作微微上扬 , 一旁的显示屏上 , “阳光总在风雨后”7个字立刻显示出来……
张益彬是天津理工大学聋人工学院网络工程专业2019级学生 , 也是该校鲸言创益无障碍智能科技研发团队的成员 。 在这个近60人的团队中 , 超过一半成员是和张益彬一样的听障学生 , 他们用近5年时间构建起一个包含30余万条视频的语料库 。 如今 , 团队打造的“复杂场景下中国手语实时翻译系统”即将落地应用 。
大胆尝试 , 将手语实时翻译为语音或文字
2006年 , 袁甜甜成为天津理工大学聋人工学院计算机系的一名教师 , 对她来说 , 教学最大的困难是交流障碍 。
当时 , 语音识别软件尚未问世 , 学生又都是听障人士 , 袁甜甜只能硬着头皮自学手语 , “一堂课下来 , 手舞足蹈 , 经常满头大汗 , 一望台下 , 学生们还是一脸茫然 。 ”袁甜甜说 , 向学生传递信息很难 , 难上加难的是了解学生的想法 。
第二次全国残疾人抽样调查数据显示 , 我国约有听障人士2780万人 。 “时至今日 , 手语仍是听障人士的‘母语’ 。 ”袁甜甜说 , 尽管近年来语音识别软件普及 , 但表达的逻辑出发点始终绕不开健听人 , “对于听障人士来说 , 听懂是一方面 , 但他们最渴望的 , 还是被‘听见’ 。 ”
2016年底 , 手语识别系统的雏形开始在袁甜甜脑海中清晰起来 。 “听障人士在摄像头前打出手语 , 视频画面经过计算机的分析处理 , 转换为文字或者语音 。 ”袁甜甜阐释设想 , 创新的逻辑出发点从健听人变成了听障人 , 也意味着没有成熟的方案可以借鉴 。 “这是一次关乎‘表达’的探险 。 ”袁甜甜说 。
构建算法 , 给计算机编一套手语教材
如果说“手语识别”和“语音识别”还有一些相似之处 , 那就是二者都必须依托于丰富的语料库 。 如今 , 语音识别语料库已十分成熟丰富 , “语音的语料在自然状态下非常便于获取 , 但手语语料却非常少 。 ”袁甜甜说 。
“另外 , 语音是一种‘单信道’的形式 , 而手语是‘多信道’ , 计算机要识别的不只有动作 , 还有表情和场景 。 ”袁甜甜介绍 , 从对数据采集的支撑程度看 , 我国目前手语语言学的体系性并不强 , “手语方言”比比皆是 , 这就给数据采集造成了极大困难 。
“要将设想变为现实 , 就要先确立标准 。 ”袁甜甜说 , 她和团队成员确定了先易后难的思路 , 基于国家通用手语的标准采集数据 , “简单来讲 , 我们翻译的是手语里的‘普通话’ 。 ”
王建源是聋人工学院网络工程专业2018级学生 , 也是鲸言创益团队的初创成员 。 他的工作是收集手语语料 , 这些语料便是视频画面 。 “招募志愿者 , 请他们来录视频 , 反反复复地录 。 ”王建源“说” 。
王建源从小在特殊学校求学 , 父母也都是听障人士 , 他从不避讳在健听人面前打出手语 , 因为他觉得手语很美 。 “但是 , 手语的美是复杂的 , 这个工程量太大了!”王建源笑着“说” 。
两年时间里 , 王建源和团队其他成员几乎每天都准时出现在学院的实验室 , 有时忙到很晚 , 干脆席地而睡 。 如今 , 他们已经收集到30余万条语料 , “经过测算对比 , 距离中国汉语水平考试的4级水平仅差100多个词了 。 ”王建源介绍 。