关注公众号,发现CV技术之美
近年来,神经网络收敛位置的平滑性(flatness)被证明与模型泛化能力有直接的联系,而现有对平滑性的定义仍局限于sharpness-aware minimization(SAM)及其变体的零阶平滑性(zeroth-order flatness),即收敛位置邻域域内最大损失值与当前损失值的差。清华大学崔鹏教授的CVPR2023 Highlight论文”Gradient norm aware minimization seeks first-order flatness and improves generalization”发现零阶平滑性有一定的局限性,所以提出了一阶平滑性的概念,并进一步提出了可以约束一阶平滑性的优化器GAM,大量实验证明GAM相比于现有优化器有更强的泛化能力。
论文:https://arxiv.org/abs/2303.03108 代码:https://github.com/xxgege/GAM
sharpness-aware minimization(SAM)[3]理论证明了平滑极值点在测试数据上的泛化误差低于尖锐极值点,并进一步提出了优化零阶平滑性,即收敛位置邻域半径(perturbation radius,
加入「计算机视觉」交流群