OpenAI 拾回初心?总爱乱讲话的GPT-3终于懂事了

硅星人的读者朋友们 , 应该对GPT-3完全不陌生了:它是由硅谷顶级AI基础研究机构OpenAI推出的超大规模语言生成模型 , “-3”也表示它已经是这个GPT系列的第三代了 。 它的训练参数量超过了1750亿 , 在当时惊为天人 。
虽然谷歌和智源等机构也在后来发布了各自的万亿参数量超大模型 , GPT-3仍然在大模型的领域占有一席之地——关键原因之一 , 就在于GPT-3已经被开发成了OpenAIAPI , 广泛投入到了商业使用 , 被微软等一众大公司所采用 。
GPT-3的能力非常强 , 被称为“万能生成器” , 不仅限于语言 , 甚至还能生成数学公式、Excel表格函数、回答问题、作诗、解数学题、翻译代码等等——此前 , 我们在这篇文章里曾经介绍过 , GPT-3的能力有多么的强大 。
OpenAI 拾回初心?总爱乱讲话的GPT-3终于懂事了
文章图片
这个小工具的背后就是GPT-3 , 可以10秒钟生成一个谷歌首页然而 , 自从诞生以来 , GPT-3一直伴随着巨大的争议 。 比如 , 一些来自顶级学府的调查论文发现 , 以GPT系列为代表的一些生成模型 , 其生成的结果通常包含基于性别和族裔的偏见 。 硅星人还曾独家报道过 , 因为意见不合、对组织的研究方向不满等 , 一些OpenAI前核心员工在2020年底集体离职 , 创办了新的研究机构Anthropic 。
OpenAI想要用GPT-3/OpenAIAPI大赚特赚 , 这完全可以理解 , 毕竟现在的OpenAI早已不是纯粹的研究机构 , 而是有着研究和商业混合的双重身份 。 但不管怎样 , 它都需要尽快妥善解决生成类神经网络模型“不听话”、“不可解释”、“体现甚至放大训练数据当中偏见”等各种各样的问题……
过去的一年里 , OpenAI也确实是这样做的 。
InstructGPT:更听话、更安全的语言模型
最近 , 该机构终于发布了最新进展:一个改良版的 , 更“听话”也更“安全”的GPT-3——InstructGPT.
“我们成功训练出了在遵守用户意图方面比GPT-3显著更强的新语言模型 , 并且同时确保这些模型更加诚实 , 减少了有害结果的生成 。 具体来说 , 我们采用了在对齐(alignment)研究当中掌握的技术 , 使得这些训练结果成为可能 , ”OpenAI表示 。
新的模型名为InstructGPT(instruct是指导的意思) , 意即和一般模型训练的自我监督模式不同 , 这次在新模型的训练当中 , OpenAI重度使用了人类作为“教师”的身份 , 对模型训练进行反馈和指导 。
这次的InstructGPT模型 , 可以说是“原版”GPT-3基础之上的“加强版” 。
之前的OpenAIAPI采用的是“原版”GPT-3模型 。 然而在完成任务的时候 , 有时候会生成不诚实、有害的内容 , 或者反映某些不健康的情绪 。
OpenAI指出 , 这是因为原版GPT-3的训练语料数据来自全网 , 并且模型的设计功能就是根据现有单词预测下一单词 , 它的任务不是“根据用户的需要 , 安全地完成语言任务” 。 也即 , 原版的GPT-3模型并没有和用户“对齐”(align) 。
在新模型的训练中 , OpenAI采用了一种已经存在的训练技巧 , 从人类反馈中进行强化学习(reinforcementlearningfromhumanfeedback , 简称RLHF) 。
首先 , OpenAIAPI的用户对GPT-3发出了各种各样的提问(prompt);OpenAI找了40个人作为数据标记员 , 根据这些用户提问生成理想答案;然后 , OpenAI再用这些数据对GPT-3进行优化微调 , 设计出新的激励模型;数据标记员对不同GPT-3模型版本生成的结果进行打分:
OpenAI 拾回初心?总爱乱讲话的GPT-3终于懂事了
文章图片
结果令人惊讶:采用这种方法训练的InstructGPT , 生成内容的质量在任何参数量级上都显著优于GPT-3 , 且质量稳定性基本上不受到参数量的制约 。