新鲜 / 健康 / 便利 / 快速 / 放心
一直用优化器解决问题,但是没有对它进行一个系统的总结。。不对,系统的总结进行过,只是时过境迁,早已忘却。
一开始学习的当然是SGD,只是学着学着就忘记了。后来呢,接触到网上介绍的几种常用的优化器,看着原理挺给力,可是记了好几次都记不住。直到遇到《百面机器学习》,它从最基本的原理出发,给了我一点灵感。
(1)几种常用的优化器,详情见这里链接34
(2)
老师说,Adam就能当拖拉机刨地用,也能当赛车比骚用。
预训练模型出现后,AdamW也逐渐声明在外,据说还有一种Amsgrad,详见链接31、链接32、链接34和bertAdam,详见链接33
(1)随便说一下,Adam也是有学习衰减率的。当学习率取得较大一点时,添加上学习衰减率,可以取得更好一点的效果。详情见链接35,注意区分这里的学习衰减率与AdamW中学习衰减率的区别。