新技术,老问题:NLP领域中没有被听到的「声音」( 二 )


现代NLP的缺陷有很多来由 。 本文将专注于几个代表性问题:在数据和NLP模型的发展中 , 什么人或物被代表了?这种不平等的代表是如何导致NLP技术利益的不平等分配的?
1“大”就一定“好”?
一般来说 , 机器学习模型 , 尤其是深度学习模型 , 数据越多 , 其表现就会越好 。 Halevy等人(2009)解释说 , 对于翻译任务来说 , 与比较小的数据集上训练的更复杂的概率模型相比 , 在大型数据集上训练的简单模型的表现更好 。 Sun等人在2017年也重新审视了机器学习可扩展性的想法 , 指出视觉任务的性能随着提供的示例数量呈对数增长 。
人工智能从业者已将这一原则牢记于心 , 特别是在NLP研究中 。 自监督目标的出现 , 如BERT的掩码语言模型(该模型可以根据上下文学习预测单词) , 基本上使整个互联网都可以用于模型训练 。 2019年的原始BERT模型是在16GB的文本数据上训练的 , 而近期的模型 , 如GPT-3(2020)是在570GB的数据上训练的(从45TB的CommonCrawl中过滤) 。 Bender等人(2021)将“数据越多越好”这一格言作为模型规模增长背后的驱动思想 。 但他们的文章引起我的一个思考:这些大型数据集中包含了什么思维?
新技术,老问题:NLP领域中没有被听到的「声音」
文章图片
图注:语言模型的规模随时间的推移而增大
Wikipedia是BERT、GPT和许多其他语言模型的来源 。 但Wikipedia研究发现 , 其编辑所代表的观点存在问题 。 大约90%的文章编辑是男性 , 他们往往是来自发达国家的受过正规教育的白人 。 他们的身份可能会对维基百科的内容产生影响 , 比如只有17%的传记是关于女性的 , 可是被编辑提名删除的传记中却有41%是关于女性的 , 女性传记被删除内容明显高于常规比例 。
NLP模型的另一个主要来源是GoogleNews , 包括原始的word2vec算法 。 从历史上看 , 新闻编辑室一直由白人男性主导 , 这种模式在过去十年中没有多大改变 。 实际上 , 在过去几十年 , 这种差异变得更大 , 这意味着当模型使用旧的新闻数据集时 , 这种被代表的问题只会变得更糟 。
此外 , 互联网用户倾向于年轻、高收入和白人 。 GPT模型的来源之一CommonCrawl使用了Reddit的数据 , Reddit有67%的用户是男性 , 70%是白人 。 Bender等人(2021)指出 , GPT-2这样的模型有包容/排斥方法 , 可能会删除代表特定社区的语言(例如通过排除潜在的冒犯性词汇 , 就会将代表LGBTQ群体的语言排除在外) 。
当前NLP中的许多先进性能都需要大型数据集 , 这种对数据如饥似渴的劲头已经盖过了人们对数据中所代表的观点看法的关注 。 然而 , 从上面的证据可以清楚地看出 , 有些数据源并不是“中立的” , 反而放大了那些历史上、在社会上占据主导地位的人的声音 。
而且 , 即便是有缺陷的数据源也不能平等地用于模型开发 。 绝大多数标记和非标记数据仅以7种语言存在 , 约占所有使用者的1/3 。 这使得世界上其他2/3的国家无法达到这种表现 。 为了弥补这一差距 , NLP研究人员探索了在高资源语言中预训练的BERT模型和低资源语言微调(通常称为Multi-BERT) , 并使用“适配器”跨语言迁移学习 。 但是通常来说 , 这些跨语言方法的表现要比单语言方法差 。
这些模型很难跨语言泛化 , 这一事实可能指向一个更大的问题 。 乔希等人(2021年)这样解释:“NLP系统接受训练和测试的少数几种语言通常是相关的……这会导致形成一种类型学的回声室 。 因此 , 我们的NLP系统从未看到过绝大多数类型多样化的语言现象 。 ”