分享好友 最新动态首页 最新动态分类 切换频道
AI系统——梯度累积算法
2024-12-27 02:05
  • 明天博士论文要答辩了,只有一张12G二手卡,今晚通宵要搞定10个模型实验

  • 挖槽,突然想出一个T9开天霹雳模型,加载不进去我那张12G的二手卡,感觉要错过今年上台Best Paper领奖

上面出现的问题主要是机器不够、内存不够用。在深度学习训练的时候,数据的batch size大小受到GPU内存限制,batch size大小会影响模型最终的准确性和训练过程的性能。在GPU内存不变的情况下,模型越来越大,那么这就意味着数据的batch size智能缩小,这个时候,梯度累积(Gradient Accumulation)可以作为一种简单的解决方案来解决这个问题。

下面这个图中橙色部分HERE就是梯度累积算法在AI系统中的大致位置,一般在AI框架/AI系统的表达层,跟算法结合比较紧密。

训练数据的Batch size大小对训练过程的收敛性,以及训练模型的最终准确性具有关键影响。通常,每个神经网络和数据集的Batch size大小都有一个最佳值或值范围。

不同的神经网络和不同的数据集可能有不同的最佳Batch size大小。

选择Batch size的时候主要考虑两个问题:

泛化性:大的Batch size可能陷入局部最小值。陷入局部最小值则意味着神经网络将在训练集之外的样本上表现得很好,这个过程称为泛化。因此,泛化性一般表示过度拟合。

收敛速度:小的Batch size可能导致算法学习收敛速度慢。网络模型在每个Batch的更新将会确定下一次Batch的更新起点。每次Batch都会训练数据集中,随机抽取训练样本,因此所得到的梯度是基于部分数据噪声的估计。在单次Batch中使用的样本越少,梯度估计准确度越低。换句话说,较小的Batch size可能会使学习过程波动性更大,从本质上延长算法收敛所需要的时间。

考虑到上面两个主要的问题,所以在训练之前需要选择一个合适的Batch size。

虽然传统计算机在CPU上面可以访问大量RAM,还可以利用SSD进行二级缓存或者虚拟缓存机制。但是如GPU等AI加速芯片上的内存要少得多。这个时候训练数据Batch size的大小对GPU的内存有很大影响。

为了进一步理解这一点,让我们首先检查训练时候AI芯片内存中内存的内容:

  • 模型参数:网络模型需要用到的权重参数和偏差。
  • 优化器变量:优化器算法需要的变量,例如动量momentum。
  • 中间计算变量:网络模型计算产生的中间值,这些值临时存储在AI加速芯片的内存中,例如,每层激活的输出。
  • 工作区Workspace:AI加速芯片的内核实现是需要用到的局部变量,其产生的临时内存,例如算子D=A+B/C中B/C计算时产生的局部变量。

因此,Batch size越大,意味着神经网络训练的时候所需要的样本就越多,导致需要存储在AI芯片内存变量激增。在许多情况下,没有足够的AI加速芯片内存,Batch size设置得太大,就会出现OOM报错(Out Off Memory)。

解决AI加速芯片内存限制,并运行大Batch size的一种方法是将数据Sample的Batch拆分为更小的Batch,叫做Mini-Batch。这些小Mini-Batch可以独立运行,并且在网络模型训练的时候,对梯度进行平均或者求和。主要实现有两种方式。

1)数据并行:使用多个AI加速芯片并行训练所有Mini-Batch,每份数据都在单个AI加速芯片上。累积所有Mini-Batch的梯度,结果用于在每个Epoch结束时求和更新网络参数。

2)梯度累积:按顺序执行Mini-Batch,同时对梯度进行累积,累积的结果在最后一个Mini-Batch计算后求平均更新模型变量。

虽然两种技术都挺像的,解决的问题都是内存无法执行更大的Batch size,但梯度累积可以使用单个AI加速芯片就可以完成啦,而数据并行则需要多块AI加速芯片,所以手头上只有一台12G二手卡的同学们赶紧把梯度累积用起来。

梯度累积是一种训练神经网络的数据Sample样本按Batch拆分为几个小Batch的方式,然后按顺序计算。

在进一步讨论梯度累积之前,我们来看看神经网络的计算过程。

深度学习模型由许多相互连接的神经网络单元所组成,在所有神经网络层中,样本数据会不断向前传播。在通过所有层后,网络模型会输出样本的预测值,通过损失函数然后计算每个样本的损失值(误差)。神经网络通过反向传播,去计算损失值相对于模型参数的梯度。最后这些梯度信息用于对网络模型中的参数进行更新。

优化器用于对网络模型模型权重参数更新的数学公式。以一个简单随机梯度下降(SGD)算法为例。

假设Loss Function函数公式为:

在构建模型时,优化器用于计算最小化损失的算法。这里SGD算法利用Loss函数来更新权重参数公式为:

其中theta是网络模型中的可训练参数(权重或偏差),lr是学习率,grad是相对于网络模型参数的损失。

梯度累积则是只计算神经网络模型,但是并不及时更新网络模型的参数,同时在计算的时候累积计算时候得到的梯度信息,最后统一使用累积的梯度来对参数进行更新。

在不更新模型变量的时候,实际上是把原来的数据Batch分成几个小的Mini-Batch,每个step中使用的样本实际上是更小的数据集。

在N个step内不更新变量,使所有Mini-Batch使用相同的模型变量来计算梯度,以确保计算出来得到相同的梯度和权重信息,算法上等价于使用原来没有切分的Batch size大小一样。即:

最终在上面步骤中累积梯度会产生与使用全局Batch size大小相同的梯度总和。

当然在实际工程当中,关于调参和算法上有两点需要注意的:

学习率 learning rate:一定条件下,Batch size越大训练效果越好,梯度累积则模拟了batch size增大的效果,如果accumulation steps为4,则Batch size增大了4倍,根据ZOMI的经验,使用梯度累积的时候需要把学习率适当放大。

归一化 Batch Norm:accumulation steps为4时进行Batch size模拟放大效果,和真实Batch size相比,数据的分布其实并不完全相同,4倍Batch size的BN计算出来的均值和方差与实际数据均值和方差不太相同,因此有些实现中会使用Group Norm来代替Batch Norm。

正常训练一个batch的伪代码:


  • 输入图像和标签,前向计算。
  • 通过前向计算得到预测值,计算损失函数。
  • 清空历史的梯度信息。
  • 进行反向传播,计算当前batch的梯度。
  • 根据反向传播得到的梯度,更新网络参数。

即在网络中输入一个batch的数据,就计算一次梯度,更新一次网络。

使用梯度累加后:


  • 输入图像和标签,前向计算。
  • 通过前向计算得到预测值,计算损失函数。
  • loss每次更新,因此每次除以steps累积到原梯度上。
  • 进行反向传播,计算当前batch的梯度。
  • 多次循环伪代码步骤1-2,不清空梯度,使梯度累加在历史梯度上。
  • 梯度累加一定次数后,根据所累积的梯度更新网络参数。
  • 清空历史梯度,为下一次梯度累加做准备。
最新文章
销售心理学读后感
销售心理学读后感(通用10篇)  细细品味一本名著后,相信大家都有很多值得分享的东西,是时候写一篇读后感好好记录一下了。那么你真的会写读后感吗?以下是小编精心整理的销售心理学读后感,欢迎大家借鉴与参考,希望对大家有所帮助。 
这组雪中红梅图,太美了,养眼养心!
在雪花纷飞的世界里,这点点绽放在枝头的红梅,着实美得动人心魄,那傲雪凌霜的姿态真让人忍不住由衷赞叹,大自然竟然能绘就如此这般绝美的景致。。。下面,我们在欣赏美图的同时娱乐一下,让智能AI根据我们输入的雪中红梅图,创作一首打油
百度蜘蛛池价格:小霸王蜘蛛池搭建教程,打造高效SEO优化利器
小霸王蜘蛛池教程助您高效SEO优化,轻松搭建蜘蛛池,提高网站收录及排名。全面解析搭建步骤,助力您的网站迅速提升搜索引擎表现。本文目录导读:小霸王蜘蛛池搭建教程注意事项随着互联网的不断发展,搜索引擎优化(SEO)已成为企业提高网站
高效实用炉石传说游戏辅助:精选插件推荐指南
本文目录导读:二、Firestone火石记牌器三、炉石传说盒子四、HearthArena插件五、选择建议在《炉石传说》这款深受玩家喜爱的策略卡牌游戏中,选择合适的插件可以显著提升游戏体验,帮助玩家更好地规划策略、管理卡牌,并提升竞技水平,以下
亚马逊CPC广告投放中的最佳广告关键词匹配方式浅析
谈及亚马逊广告的关键词匹配方式设置,不同的卖家有不同的理解,可无论怎么样的设置,都是为了达到既能节省成本又能尽可能多的展现在潜在客户面前的目的,但如果对关键词匹配方式理解不全面,甚至理解错误,则要么浪费了流量,要么错过了客
竞价推广代运营公司,让您的广告效果更持久!
标题:竞价推广代运营公司:让您的广告效果更持久亲爱的读者朋友们,您是否在为广告投放效果不佳而烦恼?是否在寻找一家专业的竞价推广代运营公司来帮助您解决这个问题?那么,请继续阅读,本文将为您揭示竞价推广代运营公司的优势,以及如
隐秘的QQ流量生意,是如何“0成本月入过万”的?
  前段时间刷公众号的时候,刷到这样一篇文章:  “三个月 70 万”、“ 2021 最赚钱的项目”、“ 90% 的人不知道”,这些噱头可谓一个比一个能激发用户好奇心,“致富”吸引力爆棚。  等点进去一看,好家伙,通篇只有一个重点:做 QQ
金阳光速清理软件手机版 v2.3.1
金阳光速清理是一款可以帮助手机清理内存垃圾的软件,软件中的清理功能非常强大,可以有效的帮助手机释放内存空间,还能帮助手机管理电池消耗,延长电池的使用寿命,如果大家的手机出现了卡顿的问题,就肯定是手机内存垃圾太多导致的,有了
喜报!iTEST获评2024年度“人工智能+教育”典型案例
随着大模型、知识图谱、智能语音等人工智能技术加速创新,人工智能在教育领域中的应用日益深入,“人工智能+教育”进入发展快车道,深刻改变着教育教学方式、人才培养模式和教育管理形式,政产学研用相关各方积极从政策指引、技术攻关、产
班级优化大师APP
班级优化大师专为中小学教师打造。现已获全国超200万教师的喜爱和肯定,成为新时代下教师开展学生评价、家校沟通、课堂互动等教学活动的主流选择!1、管理班级更高效,还能和家长随时沟通2、随时发送重要通知给各位家长3、家长的不同想法,
相关文章
推荐文章
发表评论
0评