新技术,老问题:NLP领域中没有被听到的「声音」

新技术,老问题:NLP领域中没有被听到的「声音」
文章图片
作者|BenBatorsky
编译|钱磊、Ailleurs
编辑|陈彩娴
新技术,老问题:NLP领域中没有被听到的「声音」】受到技术进步和开源数据集的推动 , 过去十年中人工智能经历了一次复兴 , 其进步之处主要集中在计算机视觉和自然语言处理(NLP)等领域 。 ImageNet在2010年制作了一个包含2万张内容标签的图片的公开语料库 。 谷歌于2006年发布了万亿词语料库(TrillionWordCorpus) , 并从大量的公共网页中获得了n-gram频率 。 NLP的进步使得机器翻译质量大幅提高 , 数字助理的应用也迅速扩大 , 诸如“人工智能是新的电力”和“人工智能将取代医生”之类的言论也越来越多 。
像AllenInstitute、HuggingFace和Explosion等组织也发布了开放源代码库和在大型语言语料库上预先训练的模型 , 这使得NLP领域飞速进展 。 最近 , NLP技术通过发布公共注释研究数据集和创建公共响应资源促进了对COVID-19的研究 。
然而 , 其实人工智能领域早已形成 。 艾伦·图灵(AlanTuring)在1950年就提出了“能思考的机器”的想法 , 这反映在人们当时对算法能力的研究上 , 当时人们希望研究出能够解决一些过于复杂而无法自动化的问题(例如翻译)的算法 。 在接下来的十年里 , 投资人看好AI研究并投入了大量资金 , 使得翻译、物体识别和分类等研究获得了很大进步 。 到了1954年 , 先进的机械词典已经能够进行基于词汇和短语的合理翻译 。 在一定条件下 , 计算机可以识别并解析莫尔斯电码 。 然而 , 到了20世纪60年代末 , 这些研究明显受到限制 , 实际用途有限 。 数学家詹姆斯·莱特希尔(JamesLighthill)在1973年发表的一篇论文中指出 , 在将自己研究的系统应用于现实世界中的问题时 , 人工智能研究人员无法处理各种因素的“组合爆炸” 。 社会上批评声不断 , 投入资金日益枯竭 , 人工智能进入了第一个“冬天” , 开发基本上停滞不前 。
新技术,老问题:NLP领域中没有被听到的「声音」
文章图片
图注:AI的发展时间线
在过去的几十年里 , 人们对人工智能的兴趣又复苏了 , 技术也突飞猛进 。 NLP最近的研究热点主要与基于Transformer的架构有关 。 然而实际应用的问题仍然值得提出 , 因为人们对于“这些模型真正在学习什么”感到担忧 。 2019年的一项研究使用BERT来解决论证理解(argumentcomprehension)的困难挑战 , 该模型必须根据一系列事实来确定一个说法是否合理 。 BERT的表现达到了SOTA , 但进一步的研究发现 , 该模型利用的是语言中的特定线索 , 而这些线索与论证的“推理”无关 。
有时研究员能够在应用算法前就解决好系统里的一切问题 , 但有时AI系统还是会带有其不应有的学习模式 。 一个典型例子是COMPAS算法 , 这种算法在佛罗里达州用来确定一个罪犯是否会再次犯罪 。 ProPublica在2016年的一项调查发现 , 这种算法预估黑人被告比白人被告犯下暴力犯罪的可能性高出77% 。 更令人担忧的是 , 高达48%再次犯罪的白人被告会被该算法标记为低风险 , 而黑人只有28% , 两者相差20% 。 由于该算法是专用算法 , 其可能利用的线索的透明度有限 。 但由于这种算法当中不同种族之间的差异如此明显 , 这表明该算法“眼中”有种族不平等的嫌疑 , 这既不利于算法自身的性能 , 也不利于司法系统 。
新技术,老问题:NLP领域中没有被听到的「声音」
文章图片
图注:COMPAS算法的应用
在人工智能领域 , 这种高调的失败并不少见 。 亚马逊最近废除了一种人工智能招聘算法 , 因为这种算法更有可能推荐男性担任技术职位 , 其原因可能是该算法利用了以往的招聘模式 。 而最顶尖的机器翻译也经常会遇到性别不平等问题和语言资源不足的问题 。