归一化提高预训练、缓解梯度不匹配，Facebook的模型超越GPT-3 机器之心报道编辑：杜伟、陈

机器之心报道
编辑：杜伟、陈萍
来自FacebookAI的研究者提出了NormFormer ，该模型能够更快地达到目标预训练的困惑度，更好地实现预训练困惑度和下游任务性能。
在原始的Transformer架构中， LayerNorm通常在Residual之后，称之为Post-LN（Post-LayerNormalization）Transformer ，该模型已经在机器翻译、文本分类等诸多自然语言的任务中表现突出。
最近的研究表明，在Post-LNtransformer中，与较早层的网络相比，在较后层的网络中具有更大的梯度幅度。
实践表明， Pre-LNTransformer可以使用更大的学习率、极小的学习率进行预热（即warm-up），并且与Post-LNTransformer相比通常会产生更好的性能，所以最近大型预训练语言模型倾向于使用Pre-LNtransformer 。
来自FacebookAI的研究者表明，虽然Pre-LN比Post-LN提高了稳定性，但也具有缺点：较早层的梯度往往大于较后层的梯度。这些问题可以通过该研究提出的NormFormer来缓解，它通过向每一层添加3个归一化操作来缓解梯度幅度不匹配问题（见图1 ，中间）：自注意力之后添加层归一，自注意力输出的head-wise扩展，在第一个全连接层之后添加层归一。这些操作减少了早期层的梯度，增加了后期层的梯度，使不同层的梯度大小更接近。
此外，这些额外的操作产生的计算成本可以忽略不计（+0.4%的参数增加），但这样做可以提高模型预训练困惑度和在下游任务的表现，包括在1.25亿参数到27亿参数的因果模型和掩码语言模型的性能。例如，该研究在最强的1.3B参数基线之上添加NormFormer可以将同等困惑度提高24% ，或者在相同的计算预算下更好地收敛0.27倍困惑度。该模型以快60%的速度达到了与GPT3-Large(1.3B)零样本相同的性能。对于掩码语言模型， NormFormer提高了微调好的GLUE性能，平均提高了1.9% 。

文章图片
论文地址：https://arxiv.org/pdf/2110.09456.pdf
与计算匹配、微调好的Pre-LN基线相比， NormFormer模型能够更快地达到目标预训练的困惑度，更好地实现预训练困惑度和下游任务性能。
论文一作SamShleifer在推特上表示：很高兴发布NormFormer ，这是我们新的语言建模架构，在实验过的每个扩展（高达2.7B参数）上都优于GPT-3 。

文章图片
来自魁北克蒙特利尔学习算法研究所的机器学习研究者EthanCaballero表示：「更多的归一化isAllYouNeed ，在GPT-3架构中使用NormFormer达到了SOTA性能，速度提高了22% ，并在下游任务中获得了更强的零样本性能。」

文章图片
【归一化提高预训练、缓解梯度不匹配，Facebook的模型超越GPT-3】方法架构
NormFormer对Pre-LNtransformer做了三处修改：在注意力模块内部应用head-wise缩放，并添加两个额外的LayerNorm操作（一个放在注意力模块后面，另一个放在首个全连接层后面）。这些修改引入了少量额外的可学得参数，使得每个层都能以经济高效的方式改变特征大小，进而改变后续组件的梯度大小。这些变化的细节如下图1所示：

文章图片
缩放注意力头。标准多头注意力操作定义如下：

文章图片
研究者提出通过学得的标量系数γ_i缩放每个注意力头的输出：
额外层归一化以及将所有组件放在一起。在Pre-LNtransformer中，每个层l将输入x_l做出如下修改：