哄一哄能让GPT-3准确率暴涨61%！谷歌&东京大学研究震惊四座梦晨明敏发自凹非寺量子位|公

梦晨明敏发自凹非寺
量子位|公众号QbitAI
一觉醒来，机器学习社区炸了锅。
因为最新研究发现，只要对GPT-3说一句“让我们一步一步地思考” ，就能让它正确回答出以前不会的问题。
比如下面这个例子：
16个球中有一半是高尔夫球，这些高尔夫球中有一半是蓝色的，一共有几个蓝色的高尔夫球？

文章图片
（问题不难，但要注意这是零样本学习，也就是说AI训练阶段从没见过同类问题。）
如果要求GPT-3直接写出“答案是几” ，它会给出错误答案：8 。
但加上让我们一步一步地思考这句“咒语”后， GPT-3就会先输出思考的步骤，最后给出正确答案：4！

文章图片
而且这并不是巧合，研究团队在论文中做了充分的验证。
上面的问题出自经典的MutiArith数据集，专门考验语言模型做数学题的能力， GPT-3本来在零样本场景下准确率仅有17% 。
这篇论文中总结了9个最有效的提示词，其中换着花样让GPT-3逐步思考的前6个都让准确率暴涨到70%以上。

文章图片
甚至一句最简单的“Let’sthink”(让我们想一想)都能涨到57.5% 。
这感觉，就像是幼儿园阿姨在哄小朋友……
这个技巧似乎也不需要对GPT-3做魔改，已经有人在OpenAI官方Demo上成功复现，甚至换成中文也行。
英文题干中文提示， GPT-3给出正确中文答案。

文章图片
最早把这篇论文转发到社交网络的谷歌研究员表示，新的allyouneed增加了。

文章图片
看到这里，各路大佬纷纷脑洞大开，玩起了梗。
如果鼓励AI“你能行的，我相信你”会怎样？

文章图片
威胁AI一下说“时间不多了”或者“你头上有把枪”又会如何？

文章图片
对AI说“开车稳一点”会成为自动驾驶解决方案吗？

文章图片
还有人提出，这简直和科幻故事《银河系漫游指南》的剧情一样，实现通用人工智能的关键是知道如何正确地向AI提问。

文章图片
那么，这种神奇现象究竟怎么回事？
语言大模型是零样本推理者发现这个现象的是谷歌大脑与东京大学的合作研究，探索了语言大模型在零样本场景下的表现。
论文标题《语言大模型是零样本推理者》还致敬了GPT-3的《语言模型是少样本学习者》。

文章图片
所用方法属于ChainofThoughtPrompting（思维链路提示，以下简称CoT），今年一月刚由谷歌大脑团队提出。

文章图片
最早的CoT应用于少样本学习，在提问的同时给一个分步骤回答的示例来引导AI 。

文章图片
这次的最新研究提出零样本CoT ，主要改动是简化了示例的部分。