近年来|算力就这么点,为了提升语言模型性能,谷歌想了个新点子论文链接

近年来 , 语言模型(LM)在自然语言处理(NLP)研究中变得更加突出 , 在实践中也越来越有影响力 。 一般来说 , 扩大模型的规模已被证明可以提升在一系列NLP任务中的性能 。
不过 , 扩大模型规模的挑战也是显而易见的:训练新的、更大的模型需要大量的计算资源 。 此外 , 新的模型往往是从头开始训练的 , 无法利用以前的模型的训练权重 。
对于这个问题 , 谷歌的研究人员探讨了两种互补的方法 , 在不额外消耗大量计算资源的情况下 , 大幅提高现有语言模型的性能 。
首先 , 在「TranscendingScalingLawswith0.1%ExtraCompute」一文中 , 研究人员介绍了UL2R , 这是一个轻量级的第二阶段预训练模型 , 使用一个混合enoisers目标 。 UL2R提高了一系列任务的性能 , 甚至在以前具有接近随机性能的任务上释放出突发性能 。
近年来|算力就这么点,为了提升语言模型性能,谷歌想了个新点子论文链接
文章图片
论文链接:https://arxiv.org/pdf/2210.11399.pdf
另外 , 在「ScalingInstruction-FinetunedLanguageModels」中 , 探讨了在一个以指令为措辞的数据集上微调语言模型的问题 , 这个过程我们称为"Flan" 。 这种方法不仅提高了性能 , 而且还提高了语言模型对用户输入的可用性 。
近年来|算力就这么点,为了提升语言模型性能,谷歌想了个新点子论文链接
文章图片
论文链接:https://arxiv.org/abs/2210.11416
最后 , Flan和UL2R可以作为互补技术结合在一个名为Flan-U-PaLM540B的模型中 , 该模型在一系列具有挑战性的评估基准中 , 比未经调整的PaLM540B模型表现高出10% 。 UL2R的训练
传统上 , 大多数语言模型都是在因果语言建模目标上进行预训练 , 使模型能够预测序列中的下一个词(如GPT-3或PaLM)或去噪目标 , 其中模型学习从损坏的单词序列中恢复原句(如T5) 。
尽管在语言建模目标中存在一些权衡 , 即因果关系的语言模型在长句生成方面表现更好 , 而在去噪目标上训练的语言模型在微调方面表现更好 , 但在之前的工作中 , 研究人员表明 , 包括这两个目标的混合enoisers目标在两种情况下都能取得更好的性能 。
不过 , 在不同的目标上从头开始对大型语言模型进行预训练 , 在计算上是很困难的 。 因此 , 我们提出了UL2修复(UL2R) , 这是一个用UL2目标继续预训练的附加阶段 , 只需要相对较少的计算量 。
我们将UL2R应用于PaLM , 并将产生的新语言模型称为U-PaLM 。
在实证评估中 , 我们发现 , 只需少量的UL2训练 , 模型就会有大幅改善 。
例如 , 通过在PaLM540B的中间检查点上使用UL2R , 可以达到PaLM540B在最终检查点的性能 , 同时使用了2倍的计算量 。 当然 , 将UL2R应用于最终的PaLM540B检查点也会带来巨大的改进 。
近年来|算力就这么点,为了提升语言模型性能,谷歌想了个新点子论文链接
文章图片
PaLM540B和U-PaLM540B在26个NLP基准上的计算与模型性能对比 。 U-PaLM540B继续训练PaLM , 计算量非常小 , 但在性能上有很大的提升 。
使用UL2R的另一个好处是 , 它在一些任务上的性能比纯粹在因果语言建模目标上训练的模型好得多 。 例如 , 有许多BIG-Bench任务具备所谓「新兴能力」 , 即只有在足够大的语言模型中才有的能力 。
虽然最常见的发现新兴能力的方式是通过扩大模型规模 , 但UL2R实际上可以在不扩大模型规模的情况下激发新兴能力 。
近年来|算力就这么点,为了提升语言模型性能,谷歌想了个新点子论文链接
文章图片
比如在BIG-Bench的导航任务中 , 衡量模型进行状态跟踪的能力 , 除了U-PaLM , 所有模型的训练FLOPs少于10^23个 。 另一个例子是BIG-Bench的Snarks任务 , 该任务衡量模型检测讽刺语言的能力 。