不花钱,让「情圣」ChatGPT教你怎么追马斯克!( 三 )


比如在写作和作曲上、在描述和总结大块长篇数据(包括代码)上、在将自然语言转换为另一种语言等领域 , GPT-3能够直接激发人类的创造力和聪明才智 , 未来的局限可能在于我们自己的想法和方案 。
这种伙伴关系 , 让微软能够与谷歌旗下同样风头正劲的AI公司DeepMind竞争 。
去年 , OpenAI发布了一个人工智能画作生成工具:Dall-E 。
不花钱,让「情圣」ChatGPT教你怎么追马斯克!
文章图片
Dall-E是一个人工智能系统 , 可以根据图像的描述创造出逼真的图像 , 甚至能够达到相当的艺术水准 , 11月 , OpenAI发布了该程序的更新版本 , Dall-E2 。
虽然OpenAI的聊天机器人在过去一周已经「起飞」 , 但该软件的更新版本可能最快会在明年才能发布 。
不花钱,让「情圣」ChatGPT教你怎么追马斯克!
文章图片
11月30日 , 作为演示模型发布的ChatGPT算得上是OpenAI的「GPT-3.5」 。 该公司计划接下来发布完整版的GPT-4 。
与此同时 , 马斯克还在发表评论:
不花钱,让「情圣」ChatGPT教你怎么追马斯克!
文章图片
他在回复SamAltman在谈论ChatGPT的推文中称 , 我们离强到危险的AI的诞生已经不远了 。
揭秘爆火ChatGPT后的功臣:RLHF
而要说ChatGPT的爆火 , 离不开它背后的功臣——RLHF 。
OpenAI的研究人员 , 是使用与InstructGPT相同的方法——来自人类反馈的强化学习(RLHF)来训练ChatGPT模型的 。
不花钱,让「情圣」ChatGPT教你怎么追马斯克!
文章图片
ChatGPT用中文解释什么是RLHF
为什么会想到从人类反馈中强化学习呢?这就要从强化学习的背景说起 。
在过去几年里 , 语言模型一直是通过人类输入的提示生成文本的 。
然而 , 什么是「好」的文本呢?这很难定义 。 因为判断标准很主观 , 并且非常依赖于上下文 。
在许多应用程序中 , 我们需要模型去编写特定创意的故事、信息性文本片段 , 或可执行的代码段 。
而通过编写一个损失函数来捕获这些属性 , 又显得很棘手 。 并且 , 大多数语言模型仍然使用的是下一个标记预测损失(例如交叉熵)进行训练 。
为了弥补损失本身的缺点 , 有人定义了能够更好地捕捉人类偏好的指标 , 比如BLEU或ROUGE 。
但即使是它们 , 也只是简单地将生成的文本与引用进行比较 , 因此也有很大的局限性 。
在这种情况下 , 如果我们使用生成文本的人工反馈作为损失 , 来优化模型 , 不是很好吗?
就这样 , 从人类反馈中强化学习(RLHF)的想法诞生了——我们可以使用强化学习 , 直接优化带有人类反馈的语言模型 。
不花钱,让「情圣」ChatGPT教你怎么追马斯克!
文章图片
ChatGPT用英文解释什么是RLH
是的 , RLHF使语言模型能够将在一般文本数据语料库上训练的模型 , 与具有复杂人类价值观的模型对齐 。
在爆火的ChatGPT中 , 我们能看到RLHF取得的巨大成功 。
RLHF的训练过程 , 可以分解为三个核心步骤:
预训练语言模型(LM) ,
收集数据并训练奖励模型 ,
通过强化学习微调LM 。
预训练语言模型
第一步 , RLHF会使用已经用经典预训练目标进行了预训练的语言模型 。
比如 , OpenAI在第一个流行的RLHF模型InstructGPT中 , 使用了较小版本的GPT-3 。
这个初始模型也可以根据额外的文本或条件进行微调 , 但并不是必要的 。
一般来说 , 对于「哪种模型」最适合作为RLHF的起点 , 并没有明确的答案 。