分享好友 最新动态首页 最新动态分类 切换频道
Adam-mini:内存占用减半,性能更优的深度学习优化器
2024-12-27 03:03

Adam(W)目前为训练LLM的主流优化器,但其内存开销较大,这是因为Adam优化器需要存储一阶动量m和二阶动量v,总内存占用至少是模型大小的两倍,这对现有的高端显卡也是一种负担。论文提出一种新的优化器Adam-mini,在不牺牲性能的情况下减少Adam优化器的内存占用。

Adam-mini

Adam-mini通过减少学习率资源来降低内存占用的具体方法如下:

  1. 参数分块:Adam-mini首先将模型参数按照Hessian矩阵的结构划分为多个块。Hessian矩阵通常具有近似块对角结构,每个块代表一组参数。论文提出的分块策略基于Hessian结构,将每个块内的参数视为一个整体进行处理。
  2. 块内平均学习率:对于每个参数块,Adam-mini不再为每个参数单独分配学习率,而是为整个块分配一个平均的学习率。具体方法是计算块内所有参数的梯度平方的平均值,然后基于这个平均值来计算该块的学习率。这一过程显著减少了所需的学习率数量。
  3. 内存节省:由于Adam-mini使用的学习率数量大大减少,所需的二阶动量(即Adam中的v参数)的存储也相应减少。论文中的实验表明,这种方法可以减少45%到50%的内存占用。
  4. 具体算法
  • 在初始化时,将模型参数分块。
  • 对于每个参数块,计算块内梯度平方的平均值,并更新块的学习率。
  • 使用更新后的学习率进行参数更新。

这种方法不仅减少了内存占用,还通过减少GPU和CPU之间的通信开销,提高了训练效率。例如,在Llama2-7B模型的预训练中,Adam-mini在两块A800-80GB GPU上实现了比AdamW高49.6%的吞吐量,并节省了33%的训练时间。

算法示例

# Adam-mini 的伪代码
def adam_mini(params, grads, lr, beta1, beta2, epsilon, weight_decay):
# 初始化动量和二阶动量
m = {}
v = {}
for param in params:
m[param] = np.zeros_like(param)
v[param] = np.zeros_like(param)
# 参数分块
param_blocks = partition_parameters(params)
for block in param_blocks:
# 获取当前块的梯度
grad_block = [grads[param] for param in block]
# 更新动量
m_block = (1 - beta1) * grad_block + beta1 * m_block
m_block_hat = m_block / (1 - beta1**t)
# 更新二阶动量(平均值)
v_block = (1 - beta2) * np.mean([g**2 for g in grad_block]) + beta2 * v_block
v_block_hat = v_block / (1 - beta2**t)
# 更新参数
for param in block:
param_update = lr * m_block_hat / (np.sqrt(v_block_hat) + epsilon)
params[param] -= param_update + weight_decay * params[param]
return params

通过这种方法,Adam-mini成功地减少了学习率资源的使用,从而大幅降低了内存占用,并在多种任务中表现出色。

性能表现

1、内存和吞吐量性能

Adam-mini在预训练Llama2-7B模型时的性能:

  • 内存占用:Adam-mini显著降低了内存占用。例如,在Llama2-7B预训练时,Adam-mini减少了45%到50%的内存消耗。
  • 吞吐量:由于内存减少,Adam-mini能够支持更大的每GPU批次大小,从而提高了吞吐量。在两块A800-80GB GPU上,Adam-mini实现了比AdamW高49.6%的吞吐量,节省了33%的训练时间。

2、预训练性能

  • TinyLlama-1B:图7(a)显示了TinyLlama-1B的验证损失曲线。Adam-mini的表现与AdamW相当,但内存占用更低。
  • GPT2系列:图8展示了GPT2不同规模模型的训练曲线,包括GPT2-125M、GPT2-330M、GPT2-770M和GPT2-1.5B。Adam-mini在所有这些模型上的表现均与AdamW相当,而Adafactor、CAME等方法在这些任务中的表现较差。

通过这些实验结果,论文证明了Adam-mini不仅在内存占用和计算效率上优于传统的AdamW,还能在不同任务中保持或提升模型性能。这些结果表明,Adam-mini是一个有效且高效的优化器,适用于大规模模型的训练和微调。

非LLM任务的表现

Adam-mini在多种非LLM任务中均表现出色,能够在减少内存占用的同时,保持或提升模型性能。这些结果证明了Adam-mini在图像识别、扩散模型训练和图卷积网络等任务中的广泛适用性和有效性。

图像分类:在ImageNet上训练ResNet18,Adam-mini的测试精度与AdamW相当。

扩散模型训练:在CelebA数据集上训练扩散模型,Adam-mini的训练损失低于AdamW。

图神经网络:在OGB-arxiv数据集上训练Graph Convolution Network (GCN)和Graph Attention Network (GAT),Adam-mini的验证精度优于或相当于AdamW。

总结

Adam-mini基于Hessian矩阵的结构,将模型参数划分为多个块,每个块使用单一的平均学习率,从而大幅减少了需要存储的学习率数量。在非LLM任务中的实验结果进一步验证了Adam-mini的广泛适用性。Adam-mini不仅在内存占用和计算效率方面具有优势,还能在多种任务中保持或提升模型性能,是一个有效且高效的优化器。

最新文章
如何确保新站三日内被百度迅速收录?关键在于优质内容与独特吸引力
身为网络管理员,新建站点后最期望的莫过于能迅速被各大搜索引擎如百度所收录。然近期因百度审核标准日趋严苛,许多新站需等待数周乃至月余方有收录可能,给推广及业务发展增添了诸多困难。在此背景下,如何确保新站在三日内被百度迅速收录
镇江刀片产品表面视觉检测方案设计实时反馈全+境+到+达
  镇江刀片产品表面视觉检测方案设计实时反馈全+境+到+达——苏州希佑科技有限公司!  提供:  计算机视觉|人工智能检测|人工智能视觉检测|CCD 视觉检测|视觉应用|视觉深度学习|AI人工智能检测|AI人工智能图像处理|AI图像处理|视觉检
SEO常见术语分析,助你掌握搜索引擎优化之路
随着互联网的快速发展,搜索引擎优化(SEO)已成为企业提升品牌知名度、拓展市场份额的重要手段。为了帮助大家更好地理解SEO,本文将解析一些常见的SEO术语,助你掌握搜索引擎优化之道。一、(Keywords)关键词是SEO的核心,指的是用户在搜
魔兽世界隔墙有耳任务攻略与完成技巧解析
在《魔兽世界》中,隔墙有耳是一项颇具挑战性的任务,它要求玩家在特定的地点 stealth 潜行,并收集情报以了解敌人的阴谋。这项任务不仅考验玩家的潜行技巧,还考验其策略思考能力和对环境的观察力。接下来,我们将分享一些完成该任务的实
谷歌推广新手教程【谷歌推广app】
本文目录导读:谷歌推广的基本概念谷歌推广的账号设置谷歌推广的广告类型谷歌推广的关键词研究谷歌推广的广告创意谷歌推广的投放设置谷歌推广的效果评估与优化在当今数字化的时代,谷歌推【浙江seo】广已成为企业和个人进行网络营销的重要
快递物流1月7日,一月七日快递停运吗
1、极兔快递物流不动是什么原因2、跨越速运2023年春节不打烊政策3、2021河北石家庄快递什么时候恢复4、...是PA开头的单号,只显示1月7日在福州,到今天都没有更新了!!!_百度知...1、物流公司没有更新网页信息:由于物流公司每日揽件量和运输
学习seo课程的费用(seo的培训课程学费)
大家好,今天小编关注到一个比较有意思的话题,就是关于学习seo课程的费用的问题,于是小编就整理了5个相关介绍学习seo课程的费用的解答,让我们一起看看吧。网站seo优化多少钱?seo外贸推广费用多少?seo优化推广多少钱?关键词优化按天收
歼八最新型崛起,军事科技尖端力量的探索
摘要:歼八最新型的崛起,代表着军事科技的尖端力量。这款战机以其卓越的性能和先进的技术,展示了中国在军事领域的实力和进步。通过不断的研究和创新,歼八最新型战机已成为中国军事力量的重要支柱,为维护国家安全提供了强有力的支持。本
谷歌(GOOGL.US)搜索涉嫌垄断 苹果(AAPL.US)高管将出庭为其辩护
智通财经APP获悉,据知情人士透露,苹果(AAPL.US)服务部门主管定于当地时间周二在华盛顿作证,计划为其与谷歌(GOOGL.US)的协议进行辩护,称谷歌搜索引擎成为iPhone的默认选项是消费者的最佳选择。苹果负责服务的高级副总裁、该协议的设计者
提升外链实力,下载免费外链工具软件368
外链是搜索引擎优化 (SEO) 的关键因素,有助于提高网站的知名度、信任度和排名。为了帮助网站管理员和 SEO 专业人员轻松有效地建立外链,本文提供了全面的网站外链建设规划计划和执行方案,并精心挑选了免费且强大的外链工具软件下载。外链
相关文章
推荐文章
发表评论
0评