分享好友 最新动态首页 最新动态分类 切换频道
更通用、有效,蚂蚁自研优化器WSAM入选KDD Oral
2024-12-29 21:54

机器之心专栏

机器之心编辑部


深度神经网络(DNNs)的泛化能力与极值点的平坦程度密切相关,因此出现了 Sharpness-Aware Minimization (SAM) 算法来寻找更平坦的极值点以提高泛化能力。本文重新审视 SAM 的损失函数,提出了一种更通用、有效的方法 WSAM,通过将平坦程度作为正则化项来改善训练极值点的平坦度。通过在各种公开数据集上的实验表明,与原始优化器、SAM 及其变体相比,WSAM 在绝大多数情形都实现了更好的泛化性能。WSAM 在蚂蚁内部数字支付、数字金融等多个场景也被普遍采用并取得了显著效果。该文被 KDD '23 接收为 Oral Paper。




随着深度学习技术的发展,高度过参数化的 DNNs 在 CV 和 NLP 等各种机器学习场景下取得了巨大的成功。虽然过度参数化的模型容易过拟合训练数据,但它们通常具有良好的泛化能力。泛化的奥秘受到越来越多的关注,已成为深度学习领域的热门研究课题。


最近的研究表明,泛化能力与极值点的平坦程度密切相关,即损失函数“地貌”中平坦的极值点可以实现更小的泛化误差。Sharpness-Aware Minimization (SAM) [1] 是一种用于寻找更平坦极值点的技术,是当前最有前途的技术方向之一。它广泛应用于各个领域,如 CV、NLP 和 bi-level learning,并在这些领域明显优于原先最先进的方法。


为了探索更平坦的最小值,SAM 定义损失函数 在 w 处的平坦程度如下:










WSAM 的设计细节





2分钟版本

13分钟版本

[1] Pierre Foret et al. Sharpness-aware Minimization for Efficiently Improving Generalization. ICLR '21.
[2] Juntang Zhuang et al. Surrogate Gap Minimization Improves Sharpness-Aware Training. ICLR '22.
[3] Jiawei Du et al. Efficient Sharpness-aware Minimization for Improved Training of Neural Networks. ICLR '22.
[4] Jungmin Kwon et al. ASAM: Adaptive Sharpness-Aware Minimization for Scale-Invariant Learning of Deep Neural Networks. ICML '21.
[5] Minyoung Kim et al. Fisher SAM: Information Geometry and Sharpness Aware Minimisation. ICML '22.

© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:content@jiqizhixin.com

最新文章
B端PM|B端产品经理到底是什么?
对于 B 端产品经理是做什么的,在之前做体验设计相关扫盲分享的时候,就已经做了一定的说明。没有看过的同学可以略过,这次我就要更具体介绍B端产品经理到底是什么经理,它在项目中要发挥哪些作用,以及作为什么角色存在。产品经理也叫 PM
Emby永久会员版
Emby永久会员版是一款很多人都喜欢的免费看剧神器,在这里各种精彩的视频任你观看,各种类型的影视资源都有,而且它的画质非常的高,给用户最好的观看体验,影视作品丰富多样,内容精彩全面,你想要看的风格都有,快来下载体验吧。1、它可
clipping magic
clipping magic官网,ai在线一键抠图软件工具,去除背景Clipping Magic是一种在线图像背景移除工具,可以帮助用户快速、精准地将图像中的前景物体从背景中分离出来。用户上传需要处理的图片后,可以通过涂抹和擦除工具,将图片中需要保留或删
Google Contacts
This connector is available in the following products and regions:ServiceClassRegionsLogic AppsStandardAll Logic Apps regions except the following: -Azure Government regions -Azure China regions -US Department of Defense (
AI+DePIN大爆发:OpenPower全球启幕,预期回报拉满!
币界网报道:AI+DePIN,2024 主流叙事市场中的热钱 95% 来自于用户的 FOMO 情绪。在具体探究 OpenPower 价值逻辑之前,我们先将目光聚焦项目所处的 AI + DePIN 赛道,探讨「抓住风口赛道」对于一个项目获得成功的加成作用。DePIN 旨在利用
A cloud-free MODIS snow cover dataset for the contiguous United States from 2000 to 2017
The spatial domain of the dataset developed in this study is the contiguous United States (CONUS) which covers about 8,080,464.3 km2, ranges between 24o30N and 49o25N in latitude and from 66o57W to 124o46W in longitude. D
chatgpt邮箱注册步骤
ChatGPT邮箱注册步骤ChatGPT是一款基于人工智能的智能聊天机器人,它可以与用户进行自然语言交互。要开始使用ChatGPT,首先需要进行邮箱注册。以下是ChatGPT邮箱注册的详细步骤。第一步:打开注册页面在您的浏览器中打开ChatGPT的注册页面
90% 程序员用过代码生成 AI,ChatGPT 成首选
近日,CSDN 正在开展一项 AI 开发者生态的调研,已经收到千份有效数据。调研内容分为「AI 工具采用」、「AI 技术与工程实践」、「 AI 基础设施」三大板块,其中在「AI 工具采用」板块中,我们抽取了开发者对代码
CMS软件使用说明书(37页)
CMS软件使用说明书目 录 一、客户端 PC配置需求. 1 二、硬件及 CMS软件安装. 1 2.1 摄像机外部接口描述 .1 2.1.1 S6000系列网络摄像机1 2.1.2 H8000系列 2 2.1.3 H8X00系列 3 2.2 网络摄像机常规连接拓扑图 . 32.3 CMS 软件安装 4 三、 CMS
80年代当红女星王馥荔:丈夫是初恋,儿子现在是知名演员
阅读此文之前,麻烦您点击下“关注”,方便您及时观看下一篇精彩文章。1975年,演员王馥荔凭借在《金光大道》中饰演的“吕瑞芳”一角走红,被称为“天下第一嫂”。之后她出演的一系列影视作品获奖无数,在其中她饰演了很多为儿子牺牲的母亲
相关文章
推荐文章
发表评论
0评