亚当优化器是深度学习中最为常用的优化算法之一,这个算法以其快速的收敛速度、优秀的性能和普遍的适用性,已经成为了深度学习领域中最为受欢迎的算法之一。今年,亚当优化器又经历了一次重大升级,这就是我们要介绍的“亚当(优化器)过山车(2018)”。

亚当优化算法的高速运行和普适性,让许多深度学习技术人员倍感欣慰。不过,这个算法也不是完美无缺的,其一个重要的问题是在使用一定的权重衰减(weight decay)时,亚当优化器无法保证正确性。这个问题一直困扰着大家,但是随着最近一系列研究的开展,这个问题终于迎来了一个圆满解决。

简言之,亚当优化器是将互补的两个部分相混合的算法。第一部分是动量(momentum)算法,它提高了优化器的收敛速度,使得算法能够克服挫折和克服$q$-轴方向的制约。第二个部分是每一个步骤都会计算适应性的学习速率,以便更好的适应适合单独特征的梯度,而这也是从第二篇论文形成的。这种结合启发了优秀的性能结果,然而却没有权重衰减的特性。

这时,你可能会问“为什么我们需要权重衰减呢?”权重衰减是一个用来防止过度拟合模型的常用技术。 事实上,这是一种结构化正则化技术,并且具有很好的稳定性,所以在很多深度学习任务中常常被使用。然而,很多人在使用亚当优化器的时候常常发现优化的结果竟然不如他们的期望,这也一定程度上阻碍了亚当优化算法在实践中的应用。

在这个过程中,亚当优化器的问题在于它没有考虑权重衰减对学习率模型的影响。因为变量的平均值变化影响梯度的平均值,而梯度的平均值则影响学习率。为了解决这个问题,我们需要重新设置亚当优化器的权重衰减超参数。

此次“亚当(优化器)过山车(2018)”的重大升级,就是为了解决这个问题。经过研究人员们的努力,我们已发现用改进后的权重衰减公式可以解决这个问题。这个公式改进了传统的权重衰减公式,并且合理的考虑了学习速率模型受到权重衰减的影响。

在本次升级之后,亚当优化器不仅能够像以前一样,保持其原有的运行速度和通用性,而且在考虑到权重衰减时,有了更好的性能。这一改进极大地拓宽了亚当优化器的适用范围,为深度学习技术的不断发展提供了强有力的支持。

总之,经过着一年多的不断改进和优化,亚当优化器再一次成为深度学习领域的一道亮丽光芒。在未来的深度学习技术中,亚当优化器必将发挥着越来越重要的作用,成为我们越来越需要的优秀算法工具。

详情参考

了解更多有趣的事情:https://blog.ds3783.com/