不花钱,让「情圣」ChatGPT教你怎么追马斯克!( 三 )
比如在写作和作曲上、在描述和总结大块长篇数据(包括代码)上、在将自然语言转换为另一种语言等领域 , GPT-3能够直接激发人类的创造力和聪明才智 , 未来的局限可能在于我们自己的想法和方案 。
这种伙伴关系 , 让微软能够与谷歌旗下同样风头正劲的AI公司DeepMind竞争 。
去年 , OpenAI发布了一个人工智能画作生成工具:Dall-E 。
文章图片
Dall-E是一个人工智能系统 , 可以根据图像的描述创造出逼真的图像 , 甚至能够达到相当的艺术水准 , 11月 , OpenAI发布了该程序的更新版本 , Dall-E2 。
虽然OpenAI的聊天机器人在过去一周已经「起飞」 , 但该软件的更新版本可能最快会在明年才能发布 。
文章图片
11月30日 , 作为演示模型发布的ChatGPT算得上是OpenAI的「GPT-3.5」 。 该公司计划接下来发布完整版的GPT-4 。
与此同时 , 马斯克还在发表评论:
文章图片
他在回复SamAltman在谈论ChatGPT的推文中称 , 我们离强到危险的AI的诞生已经不远了 。
揭秘爆火ChatGPT后的功臣:RLHF
而要说ChatGPT的爆火 , 离不开它背后的功臣——RLHF 。
OpenAI的研究人员 , 是使用与InstructGPT相同的方法——来自人类反馈的强化学习(RLHF)来训练ChatGPT模型的 。
文章图片
ChatGPT用中文解释什么是RLHF
为什么会想到从人类反馈中强化学习呢?这就要从强化学习的背景说起 。
在过去几年里 , 语言模型一直是通过人类输入的提示生成文本的 。
然而 , 什么是「好」的文本呢?这很难定义 。 因为判断标准很主观 , 并且非常依赖于上下文 。
在许多应用程序中 , 我们需要模型去编写特定创意的故事、信息性文本片段 , 或可执行的代码段 。
而通过编写一个损失函数来捕获这些属性 , 又显得很棘手 。 并且 , 大多数语言模型仍然使用的是下一个标记预测损失(例如交叉熵)进行训练 。
为了弥补损失本身的缺点 , 有人定义了能够更好地捕捉人类偏好的指标 , 比如BLEU或ROUGE 。
但即使是它们 , 也只是简单地将生成的文本与引用进行比较 , 因此也有很大的局限性 。
在这种情况下 , 如果我们使用生成文本的人工反馈作为损失 , 来优化模型 , 不是很好吗?
就这样 , 从人类反馈中强化学习(RLHF)的想法诞生了——我们可以使用强化学习 , 直接优化带有人类反馈的语言模型 。
文章图片
ChatGPT用英文解释什么是RLH
是的 , RLHF使语言模型能够将在一般文本数据语料库上训练的模型 , 与具有复杂人类价值观的模型对齐 。
在爆火的ChatGPT中 , 我们能看到RLHF取得的巨大成功 。
RLHF的训练过程 , 可以分解为三个核心步骤:
预训练语言模型(LM) ,
收集数据并训练奖励模型 ,
通过强化学习微调LM 。
预训练语言模型
第一步 , RLHF会使用已经用经典预训练目标进行了预训练的语言模型 。
比如 , OpenAI在第一个流行的RLHF模型InstructGPT中 , 使用了较小版本的GPT-3 。
这个初始模型也可以根据额外的文本或条件进行微调 , 但并不是必要的 。
一般来说 , 对于「哪种模型」最适合作为RLHF的起点 , 并没有明确的答案 。
- Python|换机不要着急,12月还有10款旗舰手机,都是值得期待的重头戏
- iphone xr|iPhone XR换14Pro,深度使用两个月,这些心里话不吐不快
- 南京|数字技术让南京历史文化遗产“活”起来
- 网友热议|伴娘穿露肩礼服肌肉健硕画面太美不敢看 网友:真金刚芭比
- 智能手表|dido E55智能手表,不间断监测生命体征,时刻关注家人健康
- 淘宝|淘宝最“佛系”卖家:不烧直通车不打折,单品一年卖超10万件
- 芯片|Chiplet能让中国芯片弯道超车?英特尔:我的技术可以
- |现在买拍照好的手机,真没必要花五六千,不到四千一样能打
- 机器人|我搞不懂,为啥你们都要配32G内存?
- 继电器|鸿蒙系统靠兼容安卓APP来发展,为何谷歌不起诉华为?