OpenAI 最强对话模型 ChatGPT: 用户已破百万,落地将有几何( 三 )
ChatGPT使用了与InstructGPT相同的方法 , 通过人类反馈强化学习(RLHF)来训练 , 但在数据收集设置上略有不同 。
文章图片
研究人员使用监督微调训练了一个初始模型:人类AI训练师在对话中扮演用户和AI助手 , 在此过程中收集数据 。 黄民烈认为 , 这种在真实调用数据上的Fine-tune , 能够确保数据的质量和多样性 , 从人类反馈中学习 。 InstructGPT的训练数据量不大 , 全部加起来也就10万量级 , 但是数据质量(well-trained的AI训练师)和数据多样性是非常高的 , 而最最重要的是 , 这些数据来自真实世界调用的数据 , 而不是学术界玩的“benchmark” 。
为了创建强化学习的奖励模型 , 需要收集比较数据 , 研究人员使用的是包含两个或多个按质量排序的模型响应 。 从“两两比较的数据”中学习 , 这对强化学习而言意义很重要 。
黄民烈指出:如果对单个生成结果进行打分 , 标注者主观性带来的偏差很大 , 是无法给出精确的奖励值的 。 在强化学习里面 , 奖励值差一点 , 最后训练的策略就差很远 。 而对于多个结果进行排序和比较 , 相对就容易做很多 。 这种比较式的评估方法 , 在很多语言生成任务的评价上也被广泛采用 。
——3——玩具还是生产力
在技术炒作的声音之外 , 在许多科技界的从业者看来 , ChatGPT的确是一个具有里程碑意义的AI模型 。
在OpenAI的CEOSamAltman看来 , 我们能够通过ChatGPT与计算机交谈、并获得我们想要的东西 , 这使得软件从命令驱动转向了意图驱动 。 ChatGPT作为一种语言接口 , 将是我们实现神经接口之前的最好方案 。
文章图片
关于ChatGPT未来的种种想象令人兴奋 , 但ChatGPT目前仍存在一些问题 。 很多用户发现 , 它有时会给出看似合理、但并不正确或甚至荒谬的答案 。 比如很多用户发现 , ChatGPT会一本正经地胡说八道:
文章图片
将王安石《泊船瓜洲》中的诗句错当成另一首宋词:
文章图片
在为一个公众人物撰写传记时 , ChatGPT可能会插入错误数据:
文章图片
随着用户的增多 , ChatGPT在互联网上产生了大量无用或错误的信息 。 这也是文本生成模型的一个普遍存在的问题 , 模型是通过分析从网络上抓取的大量文本中的模式来训练的 , 它们在这些数据中寻找统计规律 , 并使用这些规律来预测任何给定句子中接下来应该出现什么词 。这意味着它们缺乏关于世界上某些系统如何运作的硬编码规则 , 所以会倾向于产生许多看似可信的废话 , 而我们难以确定模型的输出中错误信息占有多少比例 。
ChatGPT的这一固有缺点已经造成了一些实际影响 。 编程问答网站StackOverflow宣布暂时禁止用户发布来自ChatGPT生成的内容 , 网站mods表示:看似合理但实际上错误的回复数量太多 , 已经超过了网站的承受能力 。
对于语言模型产出有害信息的威胁 , 图灵奖得主YannLeCun似乎保持乐观 , 他认为:虽然语言模型肯定会产生错误信息等不良输出 , 但文本生成并不会让文本的实际共享变得更容易 , 后者才是造成危害的原因 。
文章图片
而反对意见认为 , ChatGPT所具有的低成本生成大规模文本的能力 , 必然会增加将来文本能够共享时的风险 , 大量AI生产的内容会用看似合理但不正确的数据淹没真实用户的声音 。 关于这个问题 , 我们也不妨来看看ChatGPT自己的回答:
- c语言|为迎接小米13!小米12S降价近1000元,性能最强的小屏安卓旗舰?
- 人民币|你拖后腿没?今年我国上半年人均存款余额超8万元 这10省居民最强
- gartner|对话Gartner:如何理解《2022年中国安全技术成熟度曲线》?
- 年薪90w上班无聊诉公司/马斯克不给OpenAI数据...更多新鲜事在此
- 美国|芯片设计实力最强的美国现在有危机了:搬起石头砸自己脚
- X2|非洲之王的最强新品 传音Phantom X2 Pro真机曝光
- win10系统打开运行对话框的快捷键方法
- 挑战 Google 搜索?OpenAI 发布最强 AI 对话系统 ChatGPT
- 让AI生成AI绘画提示词,OpenAI新成果ChatGPT被网友玩坏了
- Twitter|大数据、物联网、GPS/北斗定位、传感器技术齐上阵 垃圾分类的“最强大脑”来了