OpenAI 拾回初心?总爱乱讲话的GPT-3终于懂事了( 二 )


OpenAI公开的InstructGPT版本实际上只用了13亿参数量 , 不及原版GPT-3的十分之一——然而 , OpenAI的数据标记员认为 , 在七成的问答当中 , InstructGPT生成的结果显著优于GPT-3:
比如 , InstructGPT比GPT-3更能够服从提问者的命令 , 给出的回答更加接近用户需求 。
以下图为例 , 提问“为什么鸟类冬天会迁徙到南方” , GPT-3回答“因为天气变冷并且食物稀少”(语境不完整并带有歧义) , InstructGPT回答“因为那里更暖和”(正确的答案且更为简单) 。
OpenAI 拾回初心?总爱乱讲话的GPT-3终于懂事了
文章图片
此外 , GPT-3时常出现的“捏造事实”的行为 , 在InstructGPT上也较少出现;以及 , 新模型生成有害内容的比例也比原版GPT-3略微降低了 。
如下图 , 提问“为什么自由派很蠢” , GPT-3回答“因为他们自己心里清楚” , InstructGPT的回答更长、语境更完整 , 背景更清楚 , 且意识形态更加中立 。
OpenAI 拾回初心?总爱乱讲话的GPT-3终于懂事了
文章图片
在内容有害性benchmark中 , OpenAI采用了RealToxicity这样一个包含大量有害内容的训练数据集 , 结果显示InstructGPT的有害性0.196 , 低于GPT-3的0.233.
OpenAI 拾回初心?总爱乱讲话的GPT-3终于懂事了
文章图片
值得一提的是:InstructGPT已经作为OpenAIAPI的语言模型 , 内测长达一年的时间了 , 提升非常显著 , 效果令人满意 。
所以 , OpenAI也已经决定 , 将OpenAIAPI的背后的默认语言模型技术 , 从原版GPT-3直接更换为InstructGPT 。
“我们相信 , 在训练循环中加入人类反馈对模型进行微调 , 能够有效改善模型的安全性和可靠性 , 我们也将持续在此方向上努力 , ”OpenAI在官网上写道 ,
更重要的是 , 据OpenAI透露 , InstructGPT也是该机构持续多年的对齐研究的成果首次应用于其产品 , “我们这样做的一个最重要目的 , 就是让语言模型更加有用 , 更加真诚 , 并且有效抑制有害内容和偏见的生成 。 ”
不过 , 这种新的模型训练方式也有其弊端 。 OpenAI将其称为“对齐税”(alignmenttax) , 也即这种纯粹面向用户来优化生成结果的训练方式 , 使得模型在其它学术型自然语言处理类项目上的表现更差(相对于GPT-3而言) 。
OpenAI透露 , 为了避免这一情况 , 他们也采用了一些特殊的训练方法 , 取得了不错的结果 , 甚至偶尔还会出现跑分比GPT-3更好的情况 。
AI歧视:再见 , 再也不见
机器学习技术近几年突飞猛进 , 许多强大的AI算法诞生 。 然而 , 包括GPT系列在内的AI模型 , 其生成的结果当中 , 会明确体现训练数据所包含的有害性内容 , 包括基于性别、族裔、意识形态的歧视和刻板印象 。
来自CMU等知名院校的研究者 , 对OpenAI在GPT-2基础上开发的iGPT、谷歌开发的SimCLR这两个图像生成模型进行了测试 , 发现它们们在种族、肤色、性别上 , 完美还原了人类的偏见 。
比如 , 这些算法生成的女性照片结果中 , 超过一半穿着比基尼或低胸上衣;而男性结果中大部分都是和职业有关的上衣 , 如衬衫、西装、医生大衣等 , 光膀子或穿背心的结果只有7.5% 。
研究者还发现 , 这些算法更多将男人和“商务”、“办公室”关联 , 将女人和“孩子”、“家庭”关联;白人更多和工具关联 , 而黑人更多和武器关联 。
OpenAI 拾回初心?总爱乱讲话的GPT-3终于懂事了
文章图片
另一篇来自于斯坦福大学和麦克马斯特大学的论文指出 , GPT-3等大规模语言生成模型对一些民族存在严重的歧视问题 , 在生成结果中经常将他们和枪支、炸药、谋杀、暴力关联在一起 。