归一化提高预训练、缓解梯度不匹配，Facebook的模型超越GPT-3( 二 ) 机器之心报道编辑：杜伟、陈

文章图片
相反， NormFormer将每个输入x_l修改如下：

文章图片
其中，新引入了boldedoperations 。
实验结果
对于因果语言模型（CasualLanguageModel），研究者预训练的CLM模型分别为Small（1.25亿参数）、Medium（3.55亿参数）、Large（13亿参数）和XL（27亿参数）。
他们训练了3000亿个token的基线模型，并用等量的GPU小时数训练NormFormer模型，由于归一化操作的额外开销，后者通常会减少2%-6%的steps和tokens 。
在使用的数据集上，研究者发现GPT-3中提出的学习率不是最理想的。因此，对于除了27亿参数之外的每个大小的基线和NormFormer模型，他们通过训练5万steps的模型并从中选择性能最佳的学习率来对学习率进行调整。这一过程中获得的学习率如下表1所示， NormFormer的学习率是GPT-3的3-5倍。

文章图片
对于掩码语言模型（MaskedLanguageModel,MLM），研究者采用了Liuetal.(2019)中使用的RoBERTa-base、Pre-LN架构和超参数。对于基线模型，他们对100万个token预训练了200万个batch ，是原始roberta-base训练预算的1/4 。相较之下， NormFormer在相同时间内运行了192万个batch 。
对于预训练数据，研究者在包含CC100英语语料库以及由BookCorpus、英文维基百科和CommonCrawl过滤子集组成的Liuetal.(2019)的数据英语文本集合上对所有模型进行预训练。
在下图2中，研究者将CLM和MLM的预训练困惑度表示训练时间，即GPUdays 。可以看到， NormFormer的训练速度明显更快，并且在给定训练计算预算下实现了更好的验证困惑度。

文章图片
研究者在下游任务上也观察到了类似的趋势。如下表2所示，研究者使用Brownetal.(2020)中的任务和prompt来观察CLM模型的零样本准确率。同样地， NormFormer在所有大小上均优于GPT-3 。

文章图片
对于MLM模型，研究者在下表3中报告了在GLUE上的微调准确率。再次， NormFormerMLM模型在每个任务上都优于它们的Pre-LN模型。

文章图片
为了度量架构的稳定性，研究者使用具有极大峰值学习率的学习率计划对其进行训练，使得学习率每个step增加一点，直到损失爆炸。图5显示了与基线相比， NormFormer模型在此环境中可以承受更多的更新。

文章图片
机器翻译模型的变迁
10月27日晚7点，东北大学教授肖桐带来线上分享，系统梳理机器翻译发展的技术脉络，并介绍机器翻译发展历程中的经典工作。同时在QA环节，我们将送出20本《机器翻译：基础与模型》。
关注机动组视频号，立即预约。