手势|教AI认手语的年轻人( 四 )


因此 , 入学没多久 , 王建源和乌力杰就开始通过学院的手语社团、通过他们的微信公号、通过短视频平台 , 通过线下、线上各种渠道开班授课 。 像所有教语言的老师那样 , 讲语法、单词、句型……两个人甚至开始研究起更“超纲”的手语语言学知识:在王建源的书包里 , 一本《手语动词研究》和专业课教材揣在一起 , 有时间他就掏出来看两眼 。 乌力杰干脆跑去参加了中国残联主办的国家通用手语骨干教师培训班 , 毕业考核的时候 , 还拿了个总成绩第一 。
一开始 , 他们做这一切 , 只是想给这门语言“正名” , 想告诉大家:手语有它的特性 , 但绝不“特殊” , 手语和它的使用者一样 , 都是普通的、正常的 。 他们并没有预料到 , 那些为了教人学手语做的“额外功课” , 会和他们各自的专业知识相结合 , 成为教“AI”学手语的利器 。
“我们的听障生知道手语的语法结构 , 还有它的一些基本要素 , 比如说脸上的表情到什么程度算是表达到位了 , 什么时候该用上肢体语言了 , 他们都明白 。 所以他们做数据收集、处理方面的工作 , 有天然优势 。 ”袁甜甜很看重聋人在项目团队中发挥的作用 , “咱要是叫没用过手语的健听人来收集数据、建语料库的话 , 那可真是费劲了!”
因为缺少聋人的参与 , 在手语识别和翻译技术领域 , 各国学界都走过弯路:比如尝试通过数据手套建立手语语料库 。 作为一种常见的传感器 , 数据手套在手势识别技术上的应用已经相对成熟——尽管成本高昂 , 但用手套来收集“手势” , 看起来理所当然 , 准确率也该有保证 。 只可惜手语不是简单的手势:抛开表情和大动作不谈 , 即便是同样的手势 , 指向稍有不同 , 也可能意思迥异 , 这样微妙的差异 , 手套是识别不出来的 。
意识到这一点 , 近年来各国推进的手语识别、翻译项目 , 大多采用计算机视觉的方法 , 利用摄像头收集数据、建立语料库 , 袁甜甜和她的团队也是如此 。 现阶段更常见的问题 , 一是收集的样本太少 , 数据集不够大 。 二是数据集建起来了 , 但没能对语料进行高质量筛选和标注 。 说白了 , 就是语料“不好使” 。
袁甜甜说 , 人工智能深度学习的过程 , 有点像教小孩学说话 , 一个单词先得全家上阵 , 翻来覆去地重复 , 次数够了 , 孩子才能建立印象 , “哦 , 这个单词叫妈妈 , 不管是从爸爸嘴里说出来 , 姥姥嘴里说出来 , 还是舅舅、阿姨说出来 , 都叫妈妈 。 ”同样的 , 要让机器识别一个手语句子 , 也要有足够多的人面对摄像头 , 以不同的风格重复打同一套动作 , 计算机才能“记住” 。
很多国外团队建立的手语数据集无法支持复杂场景下的手语翻译 , 一个直接的原因 , 就是无法找到足够多的人在自然状态下采集手语 。 “而我们的团队背靠聋人工学院 , 很多成员本身就是手语使用者 , 在自然手语的采集上有优势 。 ”袁甜甜说 。
“但是跟您实话实说 , 我们也建过‘不好使’的数据集 。 ”袁甜甜直接给团队2018年建立的手势汉语数据集下了定义 , “花了钱、费了功夫 , 最后挺失败的”——失败之处在于 , 那一次他们收集的语料是手势汉语而不是自然手语 。 手势汉语是按照健听人习惯的汉语语序 , 而不是手语语序连词成句的 。
“比如说 , ‘爱是我们共同的语言’ 。 这个句子用手势汉语来打的话 , 就是按顺序一个字一个字地比画 , ‘的’也有对应的手势 , 也要打出来 。 但聋人日常使用手语的时候 , 惯用的语序是:爱、我们、共同、语言、是 , ‘的’不用打 。 我这个‘半颤子’手语 , 讲课的时候也不会把‘的’‘了’都打出来 , 那不符合自然手语的表达习惯 。 ”袁甜甜解释 。