阿里巴巴|阿里研发AI技术0.15秒识别拦截外语脏话图 覆盖近30个语种

【阿里巴巴|阿里研发AI技术0.15秒识别拦截外语脏话图 覆盖近30个语种】一年多前,阿里巴巴国际安全内容风控小二小荷(化名)在用户交互场景发现了特殊的为规避平台审查的“脏话”案例 。
她的工作是借助技术和规则识别与清扫影响清朗环境的违规内容,刚开始,一些小广告和口吐芬芳的脏话只是以文字形式呈现,后来随着对抗升级,一些脏话嵌入到图片中,甚至会使用多国语言进行伪装 。
为解决这个问题,阿里安全进行了多语种识别技术升级 。近日,阿里安全算法团队宣布,其研发用于网络脏话的AI(OCR)技术,已能识别近30种语言,包括嵌入图片中的英文、阿拉伯、俄语、法语、西语、日语、韩语、泰语、越南语、波斯语、孟加拉、尼泊尔、僧伽罗、朝鲜、苏丹、德语、荷兰语,以及马来语、塔加洛语、土耳其语、意大利语、印尼语等国语言,甚至还包括三种中国少数民族语言 。
在部分国际平台中,“买家”在商品评论中以英语评论图骂人,或者在交互场景中,买卖双方以俄语脏话图片对阵 。国际平台风控团队和算法团队复盘了很多案例,发现除了多语种脏话,多语种垃圾广告以及不良信息也会暗藏在图片中,试图对抗风控 。
全球有几百种语言,重点的语言也有几十种,一个工作人员最多认识三四种语言,在国际化场景下,靠人工识别风险图片是不现实的,多语言识别的技术需求应运而生 。
阿里巴巴|阿里研发AI技术0.15秒识别拦截外语脏话图 覆盖近30个语种
文章图片

图(左)为俄语脏话示意图 图(右)为暗藏英语脏话的骂人图
阿里安全高级算法工程师沄帆介绍,要识别多语种文字,就要了解各个语言文字特点,以及影响算法识别的问题 。每种文字体系都有自己的字体,不同字体会导致同一字符出现字形上的差异,例如下左图展示了汉字“字”在不同字体时的形态,以及手写文字中的字符变化 。下右图则展示了俄语字母在手写体和印刷体时的差异,红框标出了部分字符会出现字形上的巨大变化 。
阿里巴巴|阿里研发AI技术0.15秒识别拦截外语脏话图 覆盖近30个语种
文章图片

阿里巴巴|阿里研发AI技术0.15秒识别拦截外语脏话图 覆盖近30个语种
文章图片

不同字体会导致同一字符出现字形上的差异(图片来源:网络)
“字符连接导致字形变化,不同文字体系,书写及阅读顺序是不同的,这些都会影响AI识别和对语义的判断 。”沄帆说 。例如,相同的单词在不同的语种里也可能有不同的含义,“jammer”在荷兰语里是“遗憾”的意思,但是在英语中是“信号屏蔽器”,可能涉及违规 。
“以前没有多语种识别功能的时候,我们如果把这个口语词直接拦截,可能会造成‘误杀’,脏话图识别也是如此,要依据语种来判断 。”小荷说 。
除此之外,还有脏话图以置换正常字符顺序,对抗风控的情况出现,如下图所示,即使调换字符顺序,人还是可以轻而易举地判断单词的含义,但这种“攻击”试图以打乱字母顺序的方式骗过机器识别 。
阿里巴巴|阿里研发AI技术0.15秒识别拦截外语脏话图 覆盖近30个语种
文章图片

对抗的脏话图
当然,要训练如此多语种的识别模型,并解决多种对抗情况并不容易 。技术团队既要保证好的识别效果,又要尽可能提高计算效率及控制成本,解决好训练样本及模型方案的问题 。