哄一哄能让GPT-3准确率暴涨61%！谷歌&东京大学研究震惊四座( 三 ) 梦晨明敏发自凹非寺量子位|公

有网友分享，自己用GPT-3时加几个中间命令，确实能得到更满意的结果。

文章图片
此前谷歌和MIT的研究人员发现，无需更改底层架构，只要训练语言模型会像程序员debug时那样“打断点” ，模型读代码、做算术的能力唰唰唰地就上去了。

文章图片
原理也非常简单，就是在计算步骤较多的程序里，让模型把每一步都编码成文本，并将它们记录到一个称为“便签”的暂存器中。
由此一来，模型的计算过程变得更加清晰有序，性能自然大幅提升。
还有本项实验中用来测试的InstructGPT-3 ，也是一个典型的例子。
只需让GPT-3从人类反馈中强化学习，它就能明显改善答非所问的情况。
具体来看就是先用一些人类的示范回答微调模型，然后收集某个问题的几组不同输出数据，人工对几组答案进行排序，并在此数据集上训练奖励模型。
最后，使用RM作为奖励函数，近端策略优化（PPO）算法微调GPT-3策略，以强化学习方法最大化奖励。

文章图片
包括引爆这次话题的推特博主Aran ，正是当初发现加一句“虚幻引擎”就能让AI生成图像画质飞升的那位。

文章图片
前谷歌机器人大佬EricJang此前也发现，强化学习也能运用类似的思维来提升计算效率。

文章图片
也有人表示，这种用在AI上的技巧，不正是自己平常动脑时会用的吗？

文章图片
实际上，此前Bengio就从脑科学入手，提出AI的运转模式应该像人类动脑模式一样。
人类的认知任务可以分为系统1认知和系统2认知。
系统1认知任务，是指那些无意识完成的任务。比如你可以马上辨别出手里拿的是什么东西，但是却无法和别人解释，自己是怎么完成这个过程的。
系统2认知任务，是指人类大脑需要按照一定步骤完成的认知。比如做一道加减法运算，你可以很清楚地解释最终答案是如何得出的。
【哄一哄能让GPT-3准确率暴涨61%！谷歌&东京大学研究震惊四座】而这次加的“咒语” ，正是让AI更进一步，学会按步骤来思考。
面对这样的趋势，有学者认为“提示工程正在取代特征工程” 。

文章图片
那么“提示词猎人”会成为下一代NLP研究者的外号么？

文章图片
论文地址：
https://arxiv.org/abs/2205.11916参考链接：
[1]https://twitter.com/arankomatsuzaki/status/1529278580189908993[2]https://evjang.com/2021/10/23/generalization.html—完—
量子位QbitAI·头条号签约