万字长文!DeepMind科学家总结2021年的15个高能研究( 二 )


到目前为止 , 诸如T0、FLAN和ExT5等多任务模型 , 已经在大约100个主要针对语言的任务上进行了预训练 。 这种大规模的多任务学习与元学习密切相关 。 如果能够接触到不同的任务分配 , 模型就可以学习不同类型的行为 , 比如如何进行语境学习 。
万字长文!DeepMind科学家总结2021年的15个高能研究
文章图片
ExT5能够实现大规模多任务学习 。 在预训练期间 , ExT5以文本到文本的形式对一组不同任务的输入进行训练 , 以产生相应的输出 。 这些任务包括掩码语言建模、摘要、语义分析、闭卷问答、风格转换、对话建模、自然语言推理、Winograd-schema风格的核心参考解析等 。
最近研究的一些模型 , 如T5和GPT-3 , 都使用了文本到文本的格式 , 这也成为了大规模多任务学习的训练基础 。 因此 , 模型不再需要手工设计特定任务的损失函数或特定任务层 , 从而有效地进行跨任务学习 。 这种最新的方法强调了将自监督的预训练与有监督的多任务学习相结合的好处 , 并证明了两者的结合会得到更加通用的模型 。
3不止于Transformer
前面提到的预训练模型大多数都基于Transformer的模型架构 。 在2021年 , 研究人员也一直在寻找Transformer的替代模型 。
Perceiver(感知器)的模型架构类似于Transformer的架构 , 使用一个固定维度的潜在数组作为基础表示 , 并通过交叉注意力对输入进行调节 , 从而将输入扩展到高维 。 PerceiverIO进一步扩展了模型的架构来处理结构化的输出空间 。
万字长文!DeepMind科学家总结2021年的15个高能研究
文章图片
还有一些模型尝试改进Transformer中的自注意力层 , 一个比较成功的例子就是使用多层感知器(MLPs) , 如MLP-Mixer和gMLP模型 。 另外FNet使用一维傅立叶变换代替自注意力来混合token层面的信息 。
一般来说 , 把一个模型架构和预训练策略脱钩是有价值的 。 如果CNN预训练的方式与Transformer模型相同 , 那么他们在许多NLP任务上都能得到更有竞争力的性能 。
同样 , 使用其他的预训练目标函数 , 例如ELECTRA-style的预训练也可能会带来性能收益 。
4提示
受到GPT-3的启发 , prompting对于NLP模型来说是一种可行的新范式 。
万字长文!DeepMind科学家总结2021年的15个高能研究
文章图片
提示符通常包括一个要求模型做出某种预测的模式 , 以及一个用于将预测转换为类标签的语句化程序 。 目前的方法有PET,iPET和AdaPET , 利用提示进行Few-shot学习 。
然而 , 提示并不是一种灵丹妙药 , 模型的性能可能会因不同的提示不同而大不相同 。 并且 , 为了找到最好的提示 , 仍然需要标注数据 。
为了可靠地比较模型在few-shotsetting中的表现 , 有研究人员开发了新的评价程序 。 通过使用公共提示池(publicpoolofprompts,P3)的中的大量提示 , 人们可以探索使用提示的最佳方式 , 也为一般的研究领域提供了一个极好的概述 。
目前研究人员仅仅触及了使用提示来改进模型学习的皮毛 。 之后的提示将变得更加精细 , 例如包括更长的指令、正面和反面的例子以及一般的启发法 。 提示也可能是将自然语言解释纳入模型训练的一种更自然的方式 。
5高效方法
预训练模型通常非常大 , 而且在实践中效率往往不高 。
2021年 , 出现了一些更有效的架构和更有效的微调方法 。 在模型方面 , 也有几个新的、更有效的自注意力的版本 。
目前的预训练模型非常强大 , 只需更新少量的参数就可以有效地进行调节 , 于是出现了基于连续提示和适配器等的更有效的微调方法迅速发展 。 这种能力还能通过学习适当的前缀或适当的转换来适应新的模式 。