哄一哄能让GPT-3准确率暴涨61%!谷歌&东京大学研究震惊四座( 二 )
第一步 , 把题干改写成“Q:xxx , A:xxx”的形式 , 其中触发句A可以提取出语言模型的思考过程 。
第二步属于额外实验 , 增加了“答案是……”的提示促使语言模型给出最终答案 。
文章图片
这样做最大的好处是通用 , 不再需要对不同问题类型提供专用的示例 。
论文中对各类问题做了充分实验 , 包括12项测试:
6个数学问题测试集 , SingleEq、AddSub、SVAMP和更有挑战的MultiArith,AQUA-RAT,GSM8K 。
2个常识推理测试集 , CommonsenseQA和StrategyQA 。
2个符号推理测试集 , LastLetterConcatenation和CoinFlip 。
以及BIG-bench中的日期理解问题、跟踪乱序物体任务 。
与普通的零样本学习相比 , 零样本CoT在其中10项中取得更好效果 。
文章图片
△右侧值为额外实验结果在比较有难度的MultiArith和GSM8K数学测试中 , 用GPT-3最新版本Text-davinci-002(175B)做了更深入实验 。
如果给8次尝试机会取最好结果 , 还能进一步提升准确率至93% 。
文章图片
在错误结果分析中研究人员还发现 , 很多问题中其实AI的推理过程是正确的 , 只是答案无法收敛至唯一确定时会给出多个备选 。
文章图片
论文的最后 , 研究团队提出这项研究不仅可以作为零样本CoT的基线 , 更希望让学界认识到在构建微调数据集和少样本提示模版之前 , 充分发掘语言大模型零样本能力的重要性 。
研究团队来自东京大学松尾研究室 。
负责人松尾丰教授 , 同时是软银董事会中的第一位人工智能专家 。
文章图片
团队成员中的客座教授顾世翔来自谷歌大脑团队 , 顾世翔本科师从三巨头之一Hinton , 博士毕业于剑桥大学 。
文章图片
加点“魔法”已经成为AI圈新潮了零样本CoT究竟为何起作用还有待探索 。
不过有人实验得出 , 这种办法似乎只对GPT-3(text-davinci-002)比较有效 , 他尝试了001版本 , 发现收效甚微 。
文章图片
他列出了一个自己做的例子 。
提问:请将machine , learning中每个单词的最后一个字母连起来 。
GPT-3在提示下给出的答案是连起来了两个单词中的所有字母 。
文章图片
对此 , 作者之一顾世翔回复表示 , 其实“咒语”对初始版、改良版的GPT-3都有效果 , 这些结果在论文中也有体现 。
文章图片
也有人发出质疑 , 表示难道深度学习变成了一场找“神奇咒语”的游戏?
文章图片
同时 , 我们在吐槽队伍里又看到了马库斯的身影 。
他也列出了一个失败的例子 , GPT-3在“咒语”加持下也没弄明白 , 莎莉的牛到底会不会起死回生……
文章图片
不过值得注意的是 , 类似这种稍微给AI加点小魔法 , 提升效果立竿见影的例子已经不稀奇了 。
- 模组行业竞争激烈,爱联科技“低价策略”能否突围? | IPO速递
- 相信大家都用过电视盒子|哪个牌子的电视盒子好用?维修师总结超强性能网络电视盒子推荐
- 618大促降至|618淘宝新功能“价保中心”上线,不用顾虑涨价下套
- 医生|使盲者复明、聋者复聪?外媒:智能眼镜将比手机更智能
- 热浪|研究发现:气候变化使印度出现创纪录热浪可能性增加30倍
- 米家|米家智能空气炸锅Pro 4L开启众筹:配隔热透明窗 美味一目了然
- 5月25日|电动车步入“软硬兼修”时代,哈啰电动车力推新一代智能平台图灵T30
- 前不见微软宣布IE浏览器6月退役|微软build2022:edge浏览器性能大幅提升
- ATX标准电源能做多小?HDPlex突破了想象极限|atx标准电源能做多小?
- 咀嚼|咀嚼能力强不易患老年痴呆、牛奶致癌……脱去这些谣言的“科普”外衣