无声胜有声！清华团队推出新颖唇语解读系统科技日报记者华凌人说话时嘴

科技日报采访人员华凌
人说话时嘴唇动作跟语音同步，可以通过识别唇动信息进行语言信息交流。唇语对讲话者友好，但是对解读唇语的听众来说却并不轻松，唇语解读一直以来是个难题，掌握唇语解读技能的成本较高。
据了解，为降低唇语解读难度，现有技术手段常采用磁场、视觉图像、超声波等方法。以最流行的非接触式视觉图像方法为例，其唇语识别准确率较高，但依然容易受到面部角度、光强、头动和遮挡等因素干扰。特别是在此次新冠病毒流行期间，佩戴的口罩给基于视觉的唇动解读带来全新挑战。因此，通过直接捕捉面部肌肉细微动作解读唇语技术具有重要的科学研究价值与广阔的应用前景。
如果在不久的将来，嘴唇掀动——“开门” ，也许电子门禁秒懂，马上识别身份并解锁；与汽车对话——“左拐” ，或许可控制车的方向逐渐向目标移动；对于声带、喉舌损伤的失声人群，唇语可能将是一种不占用双手的、日常无障碍交流的有效方式......

文章图片
唇语解读系统（LipLanguageDecodingSystem,LLDS）示意图
这些想法，在近日清华大学机械工程系智能与生物机械团队推出一种新颖的唇语解读系统之后，将很有可能梦想成真。相关研究成果发表在最新的《自然·通讯》期刊上。
据了解，这项技术的主要试验和测试工作由清华机械工程系智能与生物机械实验室完成，中科院纳米能源与系统研究所的王中林院士对整个科研工作过程进行建议和指导。
那么，究竟这项唇语解读系统的新颖之处何在？“这个基于深度学习辅助自供电柔性传感器的唇语解读技术，目标是解决声带、喉舌损伤失声人群的日常无障碍交流问题，其不占用双手，不受面部角度、光强、遮挡和头动等外部因素的干扰，新颖之处在于开发自供电的柔性传感器（灵敏度0.61183V/kPa）采集肌肉的微小动作信号，并采用基于原型学习的深度学习模型，使用较少的数据训练，测试准确率可达94.5% ，实现即时捕捉失声人群的唇动并转译成语音，可用于失声人群的日常无障碍语音交流。 ”3月29日，该论文第一作者、清华大学机械工程系智能与生物机械团队助理研究员路益嘉在接受科技日报采访人员采访时表示。

文章图片
失声人群日常生活交流中使用和不使用唇语解码系统（LLDS）的示意图
这个唇语解读系统是否会运用大数据、人工智能等技术，突破的技术瓶颈是什么？路益嘉答道， “实现对唇动信号的识别需要用到人工智能技术和机器学习算法。在实际测试中发现，由于不同人的面部骨骼肌肉、肌肉运动形式、肌肉动作先后顺序和习惯语速等存在不同，即使是同一个词和同一句话，采集到的信号也有区别，为了得到通用的可以接受的测试准确率，需要采集海量的数据进行模型训练。然而，这样的成本偏高。 ”
据介绍，研究人员没有采用训练通用模型的技术路线，而是采用训练个性化的小样本量数据模型的方法，即对每个人的每个词（或每句话）分别采集小样本量（相对海量数据而言）的数据进行模型训练，考虑到每人说话的唇动都具有独特的习惯特征，这样训练出的模型缺少通用性但更有针对性，而不考虑通用性的要求降低模型对训练数据量的需求，小样本量也能得到可接受的测试准确率。研究人员使用基于原型学习的空洞循环神经网络，来减少模型对训练样本量的需求。例如，在测试中对20个常用水果名称的唇动信号进行分类训练，每个水果名称的唇动信号选取100个样本，测试准确率达94.5% 。