分享好友 最新动态首页 最新动态分类 切换频道
深度学习优化策略---优化器的学习率调节
2024-12-27 11:18


深度卷积神经网络(CNN tricks)调参技巧(一)学习率调节
理解深度学习中的学习率及多种选择策略
1cycle策略:实践中的学习率设定应该是先增再降
The 1cycle policy
机器学习算法如何调参?这里有一份神经网络学习速率设置指南
『A DISCIPLINED APPROACH TO NEURAL NETWORK HYPER-PARAMETERS: PART 1』论文笔记
【调参】Cyclic Learning Rates和One Cycle Policy-Keras

tensorflow中常用学习率更新策略
分段常数衰减 : tf中定义了tf.train.piecewise_constant 函数,实现了学习率的分段常数衰减功能
指数衰减: tf中实现指数衰减的函数是 tf.train.exponential_decay()。
自然指数衰减: tf中实现自然指数衰减的函数是 tf.train.natural_exp_decay()
多项式衰减: tf中实现多项式衰减的函数是 tf.train.polynomial_decay()
余弦衰减: tf中的实现函数是:tf.train.cosine_decay()

https://github.com/ildoonet/pytorch-gradual-warmup-lr
训练初期由于离目标较远,一般需要选择大的学习率,但是使用过大的学习率容易导致不稳定性。所以可以做一个学习率热身阶段——在开始的时候先使用一个较小的学习率,然后当训练过程稳定的时候再把学习率调回去。
比如说在热身阶段,将学习率从0调到初始学习率。举个例子,如果我们准备用m个batches来热身,准备的初始学习率是 η ,然后在每个batch ,将每次的学习率设为

论文:《Cyclical Learning Rates for Training Neural Networks》
如何找到最优学习率
代码地址
fastai实现:https://github.com/sgugger/Deep-Learning/blob/master/Cyclical LR and momentums.ipynb
adam的实现:https://github.com/mpyrozhok/adamwr
keras实现:https://github.com/bckenstler/CLR
pytorch实现:https://github.com/anandsaha/pytorch.cyclic.learning.rate/blob/master/cls.py

以下内容节选自https://github.com/bckenstler/CLR
The author points out that the best accuracies are typically attained by ending with the base learning rate. Therefore it’s recommended to make sure your training finishes at the end of the cycle.
在原文中,提供了三种周期学习率的方法,用的较多的是triangular策略。

1、triangular

 

2、triangular2

This method is a triangular cycle that decreases the cycle amplitude by half after each period, while keeping the base lr constant. This is an example of scaling on cycle number.

Basic algorithm:

 

3、exp_range

Basic algorithm:
cycle = np.floor(1+iterations/(2step_size))
x = np.abs(iterations/step_size - 2
cycle + 1)
lr= base_lr + (max_lr-base_lr)np.maximum(0, (1-x))gamma(iterations)

4、One Cycle Policy and Super-Convergence

源码:https://github.com/nachiket273/One_Cycle_Policy/blob/master/OneCycle.py
pytorch应用1circle:https://github.com/nachiket273/One_Cycle_Policy/blob/master/CLR.ipynb
keras实现:https://github.com/titu1994/keras-one-cycle/blob/master/clr.py

在 2017 年的近期工作中<Super-Convergence: Very Fast Training of Neural
Networks Using Large Learning Rates>,LR Range test 和 CLR 的作者将自己的想法推向了极致,其中循环学习率策略仅包含 1 个周期(一个cycle可以有多个epoch,因此称作「一周期」策略

This is a special case of Cyclic Learning Rates, where we have only 1 cycle. After the completion of 1 cycle, the learning rate will decrease rapidly to 100th its initial lowest value。

在keras的实现代码中,可以看出1个cycle是可以有多个epoch的

 
 
  • 先使用LR range test中的方法,找到最大的学习速率max_lr。
  • 使用最大学习速度的1/5或1/10作为较低的学习速度。
  • 从较低的学习率到较高的学习率,然后再回到较低的学习率。我们选择这个周期长度略小于要训练的周期总数。
  • 在最后的迭代中,我们将学习率大大低于较低的学习率值(1/10或1/100)。(整个周期(向上和向下)的长度被设置为略小于训练周期的总数,这样循环结束后有残余时间降低学习率,从而帮助模型稳定下来

我们可以将这种策略看作是一种探索-开发的权衡,其中周期的前半部分更有可能从某一局部最优跳到另一局部最优,从而有望在最平坦、最广泛的局部最优区域达到稳定。以较大的学习率开始循环的后半部分有助于模型更快地收敛到最优。
一周期策略本身就是一种正则化技术,因此需要对其它正则化方法进行调优才能与此策略配合使用。

  • 通过这一策略,作者演示了「超收敛」,它达到相同的验证准确率只需要 1/5 的迭代。
  • 标记训练数越少 ,相对于其他学习率策略的收敛效果会增加。

5、如何找到合适的学习率范围

调参】如何为神经网络选择最合适的学习率lr-LRFinder-for-Keras
源码:https://github.com/surmenok/keras_lr_finder/blob/master/keras_lr_finder/lr_finder.py
https://github.com/davidtvs/pytorch-lr-finder/blob/master/lr_finder.py

自 Adam 出现以来,深度学习优化器发生了什么变化
LR Range test + Cyclical LR(《Cyclical Learning Rates for Training Neural Networks》
SGDR(《SGDR: Stochastic Gradient Descent with Warm Restarts》
SGDW® and AdamW®(《Decoupled Weight Decay Regularization in Adam》) 源码1:https://github.com/loshchil/AdamW-and-SGDW 源码2:https://github.com/mpyrozhok/adamwr
1-cycle policy and super-convergence(《Super-Convergence: Very Fast Training of Neural Networks Using Large Learning Rates》) https://sgugger.github.io/the-1cycle-policy.html

最新文章
影像超声人工智能软件(流程优化类功能)技术审评要点发布
国家药监局器审中心关于发布影像超声人工智能软件(流程优化类功能)技术审评要点等4个审评要点的通告(2023年第23号)发布时间:2023-07-10  为规范人工智能医疗器械相关产品的管理,国家药监局器审中心组织制定了《影像超声人工智能软
选择缅甸龙坤环保的 4 大理由
成都龙坤环保科技有限公司是生产玻璃钢化粪池、塑料检查井的专业厂家。为广大客户专业提供玻璃钢化粪池、PE塑料检查井、一体化污水处理设备、玻璃钢隔油池、玻璃钢沉砂池、玻璃钢储罐、玻璃钢消防池、塑料检查井井筒、塑料检查井连接管及其
腾讯接下来怎么做搜索?
文 | 新莓daybreak,作者|翟文婷"自推荐算法的崛起,搜索就被视为是过去式,一个落后的信息连接方式。现在迎来新的变量。买下搜狗只是第一步,接下来腾讯打算怎么做搜索?"腾讯买下搜狗可能是过去一年来,互联网最受关注的事件。三个月前
四期期准三期内必出,反馈内容和总结_苹果版14.442
本文目录导读:四期期准三期内必出功能介绍功能背后的技术࡜
探讨SEO从业者的工作定位与能力提升
这个问题很有代表性,而且很多人想知道,之前留言本49021楼的文召召说:您好,卢松松,向您请教一些工作定位的问题,我在深圳工作,从事,做也有二年多了,现在的公司只有我一个人在做这块,所以平时什么都做,最近比较烦的问题是:怎么提
厦门大数匠教育
H5数据可视化课程
用AI生成超逼真美女写真,轻松get你的AI女友!
DreamlikeDreamlike是一款近期备受追捧的AI图像生成工具,其特点在于可以生成超逼真的人物照片。用户只需输入一些简单的文本描述,AI就能根据指令生成相应的图像。其生成的图像在细节表现上堪称一绝,甚至连肌肤的纹理、光影的变化都处理得
青牛电话销售手机卡批发零售
作为一名电销卡运营商,我深深体会到了电销卡在现代通讯中的重要性。无论是个人还是企业,电话通讯都是必不可少的一环。而电销卡的出现,则为我们带来了许多优势和便利。电销卡可以被分为三种类型,分别是流量卡、注册卡和红包卡。其中流量
通达信指标公式源码主力追踪指标.doc
多线:27;空线:55;P:=((2)*(CLOSE) + HIGH + LOW + OPEN)/(5);BB:=MA(P,3);CC:=(SUM(IF((PREF(P,1)),(P)*(VOL),0),4))/(SUM(IF((PREF(P,1)),(P)*(VOL),0),4));DD:=REF(100 - (100)/(1 + CC),1);A1:=HHV(P,15);A2:=LLV(P,15);A3:=A1 - A2;A4:
相关文章
推荐文章
发表评论
0评