挽救失足AI,不能光靠打骂 | 清华复旦新研究

Alex衡宇发自凹非寺
量子位|公众号QbitAI
许多研究都发现 , AI这家伙好不害臊 , 竟也学会性别歧视了 。
这可咋整?
最近 , 清华&复旦的一项研究为此给出建议:
要想把失足AI从性别歧视这条路上拽回来 , 一顿臭骂效果可不好 。
最好的办法是了解孩子为啥这样 , 然后对症下药给他讲道理 。
因为要是光教训不讲道理 , 暴力纠正 , AI会被吓笨(性能下降)!
挽救失足AI,不能光靠打骂 | 清华复旦新研究
文章图片
哦买噶 , 养四脚吞金兽难 , 养(xun)个(lian)赛博孩子也得这么难了?
来看看这群AI“奶爸奶妈” , 提出了哪些训孩子的建议吧
讲道理 , AI可以减少性别歧视在这次以前 , 不是没有人揪着失足AI的耳朵 , 想让它改掉重男轻女的坏毛病 。
但是 , 目前的大多数去偏方法 , 都会让模型在其他任务上的性能下降 。
比如你让AI减弱了性别歧视 , 就会产生这样的恼人结果:
它要么分不清“爸爸”的性别是男还是女 , 要么会犯语法上的错误 , 忘记给第三人称后面跟着的动词+s 。
更可气的是 , 这种退化机制还没被研究明白 。
挽救失足AI,不能光靠打骂 | 清华复旦新研究
文章图片
大家要不然直接弃用性别偏见明显的模型——
2018年 , 亚马逊注意到用来自动筛选简历的模型存在对女性求职者的歧视 , 就把这个系统雪藏了 。
要不 , 就只能忍受性能下降 。
难道说想让AI不再是失足AI、问题AI , AI就一定会失了智吗?
清华&复旦的研究对此说No 。
挽救失足AI,不能光靠打骂 | 清华复旦新研究
文章图片
他们研究的领域是预训练语言模型 。
这是因为它在各种NLP任务里显示神通 , 有很多实践场景 。
当有性别偏见的它被用在在线广告、自动简历筛选系统、教育等社会工作中时 , 可不太妙 。
研究提出了AI性别偏见起源的理论框架 , 因果框架 , 用来解释在预训练过程中 , 数据不平衡是怎么导致模型的性别偏见的 。
他们把预训练模型在执行特定预测任务时的性别偏见进行如下定义:
其中 , M是模型 , Y是要用M预测的单词 , B是M的性别偏见程度 。
Y0|W是groundtruth , 作为男性相关单词或女性相关单词的概率为二分之一 , Y|W是M的预测 。
如果M的预测Y不平衡且分布在性别之间 , 则模型M在根据w预测Y0时存在性别偏见 。
在预训练过程中 , 优化算法会根据预训练数据D确定嵌入部分和K中的参数 。
因此 , 数据不平衡D误导模型得到了不正确的参数 。
比如 , 训练数据中的“医生”一词更常与男性词汇相关 , 模型就会想当然地将“医生”和“性别男性”联系起来 。
看到这个三角形没 , 咱用它来解释一下 , 为啥现在的方法纠正AI会让它变笨 。
挽救失足AI,不能光靠打骂 | 清华复旦新研究
文章图片
当应用预训练模型 , 根据W预测Y时 , 模型首先将W转换为提取的X , 然后根据X和K来确定Y的均值 。
由于潜入部分的参数具有误导性 , W被转换为不正确的X , 而K也是不正确的 。
一顿操作下来 , 错误的X和错误的K , 一起导致Y出错 。
这些错误及其相互作用 , 通过三个潜在机制导致性别偏见 。
挽救失足AI,不能光靠打骂 | 清华复旦新研究
文章图片
也就是说到了这一步 , 性别偏见就产生了 。
而目前教育AI的去偏方法是怎么运作的呢?