大规模神经网络最新文献综述:训练高效DNN、节省内存使用、优化器设计( 三 )


2021年 , Dean,J.等人在论文《LargeScaleDistributedDeepNetworks》中提出了一种将Adam优化器存储在8-bit的方法 , 同时在使用32-bit格式时保持整体性能不变 。 2020年 , Sun,X.等人在论文《Ultra-LowPrecision4-bitTrainingofDeepNeuralNetworks》中提出了更激进的精度降低 , 其中开发了处理4-bit表示的特定路径 。
收敛加速
另一种加速大规模深度学习模型的方法是减少节点之间的通信时间以及在适当局部最小值收敛所需的epoch数量 。
大规模神经网络最新文献综述:训练高效DNN、节省内存使用、优化器设计】关于通信成本的降低 。 在将梯度在计算节点之间迁移之前对它们进行压缩已经出现了不同的方法 , 具体有三类 , 分别是分裂(sparsification)、量化(quantization)和低秩(low-rank)方法 。