归一化提高预训练、缓解梯度不匹配,Facebook的模型超越GPT-3( 二 )


归一化提高预训练、缓解梯度不匹配,Facebook的模型超越GPT-3
文章图片
相反 , NormFormer将每个输入x_l修改如下:
归一化提高预训练、缓解梯度不匹配,Facebook的模型超越GPT-3
文章图片
其中 , 新引入了boldedoperations 。
实验结果
对于因果语言模型(CasualLanguageModel) , 研究者预训练的CLM模型分别为Small(1.25亿参数)、Medium(3.55亿参数)、Large(13亿参数)和XL(27亿参数) 。
他们训练了3000亿个token的基线模型 , 并用等量的GPU小时数训练NormFormer模型 , 由于归一化操作的额外开销 , 后者通常会减少2%-6%的steps和tokens 。
在使用的数据集上 , 研究者发现GPT-3中提出的学习率不是最理想的 。 因此 , 对于除了27亿参数之外的每个大小的基线和NormFormer模型 , 他们通过训练5万steps的模型并从中选择性能最佳的学习率来对学习率进行调整 。 这一过程中获得的学习率如下表1所示 , NormFormer的学习率是GPT-3的3-5倍 。
归一化提高预训练、缓解梯度不匹配,Facebook的模型超越GPT-3
文章图片
对于掩码语言模型(MaskedLanguageModel,MLM) , 研究者采用了Liuetal.(2019)中使用的RoBERTa-base、Pre-LN架构和超参数 。 对于基线模型 , 他们对100万个token预训练了200万个batch , 是原始roberta-base训练预算的1/4 。 相较之下 , NormFormer在相同时间内运行了192万个batch 。
对于预训练数据 , 研究者在包含CC100英语语料库以及由BookCorpus、英文维基百科和CommonCrawl过滤子集组成的Liuetal.(2019)的数据英语文本集合上对所有模型进行预训练 。
在下图2中 , 研究者将CLM和MLM的预训练困惑度表示训练时间 , 即GPUdays 。 可以看到 , NormFormer的训练速度明显更快 , 并且在给定训练计算预算下实现了更好的验证困惑度 。
归一化提高预训练、缓解梯度不匹配,Facebook的模型超越GPT-3
文章图片
研究者在下游任务上也观察到了类似的趋势 。 如下表2所示 , 研究者使用Brownetal.(2020)中的任务和prompt来观察CLM模型的零样本准确率 。 同样地 , NormFormer在所有大小上均优于GPT-3 。
归一化提高预训练、缓解梯度不匹配,Facebook的模型超越GPT-3
文章图片
对于MLM模型 , 研究者在下表3中报告了在GLUE上的微调准确率 。 再次 , NormFormerMLM模型在每个任务上都优于它们的Pre-LN模型 。
归一化提高预训练、缓解梯度不匹配,Facebook的模型超越GPT-3
文章图片
为了度量架构的稳定性 , 研究者使用具有极大峰值学习率的学习率计划对其进行训练 , 使得学习率每个step增加一点 , 直到损失爆炸 。 图5显示了与基线相比 , NormFormer模型在此环境中可以承受更多的更新 。
归一化提高预训练、缓解梯度不匹配,Facebook的模型超越GPT-3
文章图片
机器翻译模型的变迁
10月27日晚7点 , 东北大学教授肖桐带来线上分享 , 系统梳理机器翻译发展的技术脉络 , 并介绍机器翻译发展历程中的经典工作 。 同时在QA环节 , 我们将送出20本《机器翻译:基础与模型》 。
关注机动组视频号 , 立即预约 。