近年来|算力就这么点,为了提升语言模型性能,谷歌想了个新点子论文链接( 二 )


对于来自BIG-Bench的两种能力 , 展示了新兴的任务性能 , U-PaLM由于使用了UL2R目标 , 所以在较小的模型规模下实现了新兴性能 。 指令微调
在第二篇论文中 , 我们探讨了指令微调 , 这涉及到在一组以指令为措辞的NLP数据集上对LM进行微调 。
在之前的工作中 , 我们将指令微调应用于62个NLP任务的137B参数模型 , 比如回答一个小问题 , 对电影表达的情感进行分类 , 或者将句子翻译成西班牙语等 。
在这项工作中 , 我们在超过1.8K的任务上微调了540B参数的语言模型 。 此外 , 以前的工作只对有少量例证的语言模型(如MetaICL)或无例证的零例证语言模型(如FLAN、T0)进行微调 , 而我们对两者的组合都进行了微调 。
我们还包括思维链微调数据 , 这使得模型能够进行多步骤推理 。 我们把我们改进的方法称为"Flan" , 用于微调语言模型 。
值得注意的是 , 即使在1.8K的任务上进行微调 , 与预训练相比 , Flan只用了一小部分的计算量(对于PaLM540B , Flan只需要预训练计算量的0.2%) 。
近年来|算力就这么点,为了提升语言模型性能,谷歌想了个新点子论文链接
文章图片
在1.8K个以指令形式表述的任务上对语言模型进行微调 , 并在新任务上对模型进行评估 , 这些任务不包括在微调中 。 分别在有/无示例的情况下进行微调(即0-shot和few-shot) , 以及有/无思维链的情况下进行微调 , 使模型可以在一系列评估场景中推广开来 。
本文中 , 一系列规模的LM进行了指令-微调 , 目的是研究同时扩大语言模型的规模和增加微调任务数量的共同效果 。
近年来|算力就这么点,为了提升语言模型性能,谷歌想了个新点子论文链接
文章图片
例如 , 对于PaLM类语言模型 , 包括8B、62B和540B参数规格 。 在四个具有挑战性的基准评估标准(MMLU、BBH、TyDiQA和MGSM)上评估了我们的模型 , 发现扩大参数数量和微调任务数量都能提高在此前未见的新任务上的性能表现 。
扩大到540B的参数模型和使用1.8K的微调任务都能提高性能 。 上图y轴是四个评估套件(MMLU、BBH、TyDiQA和MGSM)的归一化均值 。
除了更好的性能之外 , 指令微调LM能够在推理时对用户的指令做出反应 , 而不需要少量的示例或提示工程 。 这使得LM在一系列的输入中更加方便用户 。 例如 , 没有指令微调的LM有时会重复输入或不能遵循指令 , 但指令微调可以减轻这种错误 。
近年来|算力就这么点,为了提升语言模型性能,谷歌想了个新点子论文链接
文章图片
我们的指令微调语言模型Flan-PaLM与没有指令微调的PaLM模型相比 , 对指令的反应更好 。 强强联合 , 实现「1+1>2」
最后 , 我们表明 , UL2R和Flan可以结合起来训练Flan-U-PaLM模型 。
由于Flan使用来自NLP任务的新数据 , 并能实现零点指令跟踪 , 我们将Flan作为UL2R之后的次选方法 。
我们再次对四个基准套件进行评估 , 发现Flan-U-PaLM模型优于只有UL2R(U-PaLM)或只有Flan(Flan-PaLM)的PaLM模型 。 此外 , 当与思维链和自洽性相结合时 , Flan-U-PaLM在MMLU基准上达到了新的SOTA , 得分达到75.4% 。
近年来|算力就这么点,为了提升语言模型性能,谷歌想了个新点子论文链接
文章图片
与只使用UL2R(U-PaLM)或只使用Flan(Flan-U-PaLM)相比 , 将UL2R和Flan(Flan-U-PaLM)结合起来会带来最佳性能:四个评估套件(MMLU、BBH、TyDiQA和MGSM)的归一化平均值 。
总的来说 , UL2R和Flan是两种互补的方法 , 用于改进预训练的语言模型 。 UL2R使用相同的数据使LM适应denoisers的混合目标 , 而Flan则利用超过1.8KNLP任务的训练数据来教模型遵循指令 。