哄一哄能让GPT-3准确率暴涨61%!谷歌&东京大学研究震惊四座( 三 )
有网友分享 , 自己用GPT-3时加几个中间命令 , 确实能得到更满意的结果 。
文章图片
此前谷歌和MIT的研究人员发现 , 无需更改底层架构 , 只要训练语言模型会像程序员debug时那样“打断点” , 模型读代码、做算术的能力唰唰唰地就上去了 。
文章图片
原理也非常简单 , 就是在计算步骤较多的程序里 , 让模型把每一步都编码成文本 , 并将它们记录到一个称为“便签”的暂存器中 。
由此一来 , 模型的计算过程变得更加清晰有序 , 性能自然大幅提升 。
还有本项实验中用来测试的InstructGPT-3 , 也是一个典型的例子 。
只需让GPT-3从人类反馈中强化学习 , 它就能明显改善答非所问的情况 。
具体来看就是先用一些人类的示范回答微调模型 , 然后收集某个问题的几组不同输出数据 , 人工对几组答案进行排序 , 并在此数据集上训练奖励模型 。
最后 , 使用RM作为奖励函数 , 近端策略优化(PPO)算法微调GPT-3策略 , 以强化学习方法最大化奖励 。
文章图片
包括引爆这次话题的推特博主Aran , 正是当初发现加一句“虚幻引擎”就能让AI生成图像画质飞升的那位 。
文章图片
前谷歌机器人大佬EricJang此前也发现 , 强化学习也能运用类似的思维来提升计算效率 。
文章图片
也有人表示 , 这种用在AI上的技巧 , 不正是自己平常动脑时会用的吗?
文章图片
实际上 , 此前Bengio就从脑科学入手 , 提出AI的运转模式应该像人类动脑模式一样 。
人类的认知任务可以分为系统1认知和系统2认知 。
系统1认知任务 , 是指那些无意识完成的任务 。 比如你可以马上辨别出手里拿的是什么东西 , 但是却无法和别人解释 , 自己是怎么完成这个过程的 。
系统2认知任务 , 是指人类大脑需要按照一定步骤完成的认知 。 比如做一道加减法运算 , 你可以很清楚地解释最终答案是如何得出的 。
【哄一哄能让GPT-3准确率暴涨61%!谷歌&东京大学研究震惊四座】而这次加的“咒语” , 正是让AI更进一步 , 学会按步骤来思考 。
面对这样的趋势 , 有学者认为“提示工程正在取代特征工程” 。
文章图片
那么“提示词猎人”会成为下一代NLP研究者的外号么?
文章图片
论文地址:
https://arxiv.org/abs/2205.11916参考链接:
[1]https://twitter.com/arankomatsuzaki/status/1529278580189908993[2]https://evjang.com/2021/10/23/generalization.html—完—
量子位QbitAI·头条号签约
- 模组行业竞争激烈,爱联科技“低价策略”能否突围? | IPO速递
- 相信大家都用过电视盒子|哪个牌子的电视盒子好用?维修师总结超强性能网络电视盒子推荐
- 618大促降至|618淘宝新功能“价保中心”上线,不用顾虑涨价下套
- 医生|使盲者复明、聋者复聪?外媒:智能眼镜将比手机更智能
- 热浪|研究发现:气候变化使印度出现创纪录热浪可能性增加30倍
- 米家|米家智能空气炸锅Pro 4L开启众筹:配隔热透明窗 美味一目了然
- 5月25日|电动车步入“软硬兼修”时代,哈啰电动车力推新一代智能平台图灵T30
- 前不见微软宣布IE浏览器6月退役|微软build2022:edge浏览器性能大幅提升
- ATX标准电源能做多小?HDPlex突破了想象极限|atx标准电源能做多小?
- 咀嚼|咀嚼能力强不易患老年痴呆、牛奶致癌……脱去这些谣言的“科普”外衣