分享好友 最新动态首页 最新动态分类 切换频道
影响PPO算法性能的10个关键技巧(附PPO算法简洁Pytorch实现)
2024-12-26 05:29

0.引言

影响PPO算法性能的10个关键技巧(附PPO算法简洁Pytorch实现)

PPO算法(Proximal Policy Optimization)[1]是目前深度强化学习(DRL)领域,最广泛应用的算法之一。然而在实际应用的过程中,PPO算法的性能却受到多种因素的影响。本文总结了影响PPO算法性能的10个关键技巧,并通过实验结果的对比,来探究各个trick对PPO算法性能的影响。同时我们将代码开源在了github上,分别提供了PPO算法的离散动作空间实现和连续动作空间实现(见下面github链接中的4.PPO-discrete和5.PPO-continuous(包括了Gaussian分布和Beta分布

PPO算法的核心是使用如下策略损失函数

以上便是PPO原始论文的核心内容。其实在PPO的原始论文中,除了利用GAE计算优势函数外,并没有提到其他的实现细节和技巧。但是在实际的各种代码实现,例如Open AI Baseline、Open AI Spinning Up中,却包括了许许多多的“trick”,实验表明,这些trick都会在一定程度上影响PPO算法的性能。我在参考了《PPO-Implementation matters in deep policy gradients A case study on PPO and TRPO》[3]这篇论文,以及下面这篇博客后

通过自己的亲身实践,总结了影响PPO算法性能最关键的10个trick,如下表所示

Trick 1Advantage NormalizationTrick 2State NormalizationTrick 3 & Trick 4Reward Normalization & Reward ScalingTrick 5Policy EntropyTrick 6Learning Rate DecayTrick 7Gradient clipTrick 8Orthogonal InitializationTrick 9Adam Optimizer Epsilon ParameterTrick 10Tanh Activation Function

在这一节中,我们将逐一介绍上述PPO-max中10个trick的具体实现细节,并通过对比实验来探究这些trick究竟对PPO算法的性能有什么影响。(注:下面的实验讨论均已连续动作空间下Gaussian分布为例

Trick 1—Advantage Normalization

在论文《The Mirage of Action-Dependent Baselines in Reinforcement Learning》[4]中提出了对advantage进行normalization的操作,可以提升PG算法的性能。具体代码实现层面,对advantage做normalization的方式主要有两种

(1)batch adv norm:使用GAE计算完一个batch中的advantage后,计算整个batch中所有advantage的mean和std,然后减均值再除以标准差。

(2)minibatch adv norm:使用GAE计算完一个batch中的advantage后,不是直接对整个batch的advantage做normalization,而是在用每次利用minibatch更新策略之前,对当前这个minibatch中的advantage做normalization。( 这篇博客中使用的就是minibatch adv norm

Trick 2—State Normalization

state normalization的核心在于,与环境交互的过程中,维护一个动态的关于所有经历过的所有state的mean和std, 然后对当前的获得的state做normalization。经过normalization后的state符合mean=0,std=1的正态分布,用这样的状态作为神经网络的输入,更有利于神经网络的训练。

具体实现方式如下

最新文章
3D斜连号走势图近100期带连线
功能类福彩3D显示遗漏:显示/隐藏遗漏值,遗漏值是指自上期开出到本期间隔的期数。福彩3D遗漏分层:是将当前遗漏值用柱状图形标注。福彩3D分段线:是每五期使用分隔线,使横向导航更加清晰。福彩3D显示断区:在分区走势中使用,将开出0个号
2024中国生成式AI大会上海站开幕!首日大模型峰会燃爆魔都,17位大咖密集输干货
大会首日,由复旦大学计算机科学技术学院教授、上海市智能信息处理实验室副主任张奇领衔,17位嘉宾围绕通用大语言模型、多模态大模型、行业大模型、垂直大模型、智能体、具身智能、大模型对齐与安全、投资风向等前沿议题,分享了最新的研发
400-0755-494
天地心网络为外贸云深圳运营中心,成立于2010年,是一家集多语言外贸网站建设、外贸营销推广为一体的整合网络运营服务商。运营中心坐落于龙华展润国际大厦15楼(整层),办公面积1000㎡,服务人员超100+,辐射深圳、东莞、广州、惠州、中山
AI技术包括哪些技术?全面解析人工智能的核心组成
随着人工智能(AI)技术的迅猛发展,越来越多的人开始关注AI到底是什么,以及它是如何深刻影响着各行各业的。AI的出现不仅仅是科技创新的代表,更是未来社会和经济发展的重要驱动力。对于很多人来说,AI的概念可能还是比较抽象,但实际上,
2024新奥资料免费精准资料,绝对经典解释落实_极速版49.78.58
《2024年最新版新奥资料:精准能源管理神器》新奥集团创立于1993年是一家中国最大的能源开发企业。新奥资料作为其核心数据支持系统为公司决策提供了强有力的支持。新奥资料不仅能够提供实时的能源数据还能进行历史数据分析和预测实现了远程
3、awk 数组的高级操作和技巧
这一章主要讲一下awk 数组的操作和一些小技巧,awk的伪多维数组的创建,数组元素的删除,数组的排序,关联数组的应用,性能优化之类的。主题就是 awk 数组 其实在awk中,并不支持真正的二维数组的
AI新纪元:探索深圳市人工智能产业协会的未来机遇与精英招聘
在人工智能快速发展的今天,深圳市人工智能产业协会(以下简称“协会”)发布了新的招聘信息,真诚邀请行业精英的加入。这不仅是一次招聘,更是一次共创AI新纪元的机会。协会的招聘岗位既包括副秘书长、全国工商联人工智能委员会的综合管理
7分钟出款!AIeesapp网约助力任务不让提现大家有目共睹
AIeesapp网约助力任务不让提现大家有目共睹帮助出嘿溦『-9836356-』希望阅读此文的读者能够及时采取措施以减少损失;请及时与团队联系提供解决方案(文章下面图片有咨询方式)若想追回损失资产,务必仔细阅读以下内容。【JHHFDDFGD】2024年
2025中国经济关键词|中央经济工作会议强调科技创新,为何首提整治“内卷式”竞争?
  央广网北京12月14日消息(记者樊瑞)中央经济工作会议日前在北京举行。在部署明年的重点任务时,中央经济工作会议将“科技创新引领新质生产力发展”放在重要位置,要求加强基础研究和关键核心技术攻关,健全多层次金融服务体系。其中,
AI智能文案一键生成:全方位解决文章创作、营销推广与内容策划需求-ai智能文案生成器
随着科技的发展人工智能逐渐成为各个行业的必不可少助手。在写作领域智能文案生成器以其高效、便捷的特点为广大创作者提供了一种全新的写作方法。本文将为您详细介绍一款领先的自动写作神器——智能文案生成器,它怎么样全方位应对文章创作
相关文章
推荐文章
发表评论
0评