模型泛化不必随机训练,全批量GD媲美SGD,网友:计算成本负担不起( 三 )
文章图片
图源:知乎用户@SummerClover
【模型泛化不必随机训练,全批量GD媲美SGD,网友:计算成本负担不起】还有网友指出 , 这篇论文的研究结果实际用途很有限 , 因为全批量设置的成本太高了 , 不是普通开发者负担得起的 。 相比之下 , SGD训练鲁棒性强 , 泛化性更好 , 也更省一次迭代的计算资源 。
看来该论文进行了一些理论和实验验证 , 但正如网友提议的:能否在其他数据集上进行更多的实验来验证其结论?
文章图片
对此 , 你怎么看?
参考链接:
https://www.zhihu.com/question/494388033?utm_source=wechat_session&utm_medium=social&utm_oi=56560353017856&utm_content=group3_supplementQuestions&utm_campaign=shareopn
https://www.reddit.com/r/MachineLearning/comments/pziubx/r_stochastic_training_is_not_necessary_for/
机器翻译模型的变迁
10月27日晚7点 , 东北大学教授肖桐带来线上分享 , 系统梳理机器翻译发展的技术脉络 , 并介绍机器翻译发展历程中的经典工作 。 同时在QA环节 , 我们将送出20本《机器翻译:基础与模型》 。
关注机动组视频号 , 立即预约 。
- 销售额|2022年最该收藏的8个数据分析模型
- Myethos《武装少女系列》AZ:[C]1/7比例模型
- 后门|模型量化攻击
- 老米粉流泪了:小米发布“100 个梦想的赞助商”汽车模型
- 英伟达|NVIDIA推出升级版Canvas:全新AI模型,四倍分辨率提升
- 微软|京东探索研究院NLP水平超越微软 织女Vega v1模型位居GLUE榜首
- 受访者|超级大脑!AI大模型有望重塑信息产业格局
- 平均分|总平均分91.3分!京东探索研究院织女模型登GLUE榜首
- 包装|大厂作品集包装思路原来出自这个设计模型
- 京东探索研究院NLP水平超越微软 织女Vega v1模型位居GLUE榜首