稀疏模型在深度学习领域发挥着越来越重要的作用。|routerz-loss模型的重要性( 二 )
接下来 , 他们研究了即将进入router的logit上的约束 。 router以float32计算专家的概率分布 。 然而 , 研究者发现 , 在最大的规模下 , 这不足以带来可靠的训练结果 。 为了解决这个问题 , 他们引入了routerz-loss ,
其中 , B是token的数目 , N是专家数 , x∈RB×N是将要进入router的logit 。
下表4显示 , 在三次运行中 , updateclipping和routerz-loss都稳定了模型 , 但是updateclipping严重影响了模型的质量 。 因此 , 研究者使用z-loss方法来固定模型稳定性 。
文章图片
routerz-loss引入了另一个超参数(c_z) , 这是一个加权系数 , 作为优化的总损失的一部分 。 总损失是交叉熵损失(crossentropyloss,L_CE)、辅助负载平衡损失(auxiliaryloadbalanceloss,L_B)和routerz-loss(L_Z)的线性加权组合 。
文章图片
基于用超参数扫描进行预训练后的最佳模型质量 , 研究者选择c_z=0.001的值 。 附录B记录了预训练过程中的损失 。
- 知名度不及小米、华为,一年却净赚39亿,传音为何能在非洲称王?
- 小心!“AI算命”正在“偷看”你的隐私
- 你们都是托:为什么要骗我买硬盘?
- 点评|攒机单点评:包豪斯风格是什么东西
- 微软 Surface Duo 现已支持在 Win11 PC 上运行 Android 应用
- 显示器|拿着五六千的工资,下班就躺在床上玩手机?优秀就是与别人不一样
- 随着现在在手机市场上的处理器越来越多|骁龙870处理器手机产品,现在降价到了千元档
- 华为mate|华为Mate40RS直降千元:新旗舰即将上市?麒麟9000现在依然能打
- 华为|手机好评排行榜:华为系列上榜较多,小米不在其中,三星获第一名
- 在去年底的华为新品发布会上|华为watchd值得入手吗?