您当前的位置:首页 > 生活百科 > 科学

令人着迷的无梯度神经网络优化方法

时间:2020-08-02 11:05:21  来源:  作者:

 

令人着迷的无梯度神经网络优化方法

 

梯度下降是机器学习中最重要的思想之一:给定一些代价函数以使其最小化,该算法迭代地采取最大下降斜率的步骤,理论上在经过足够的迭代次数后才达到最小值。柯西(Cauchy)于1847年首次发现,在1944年针对非线性优化问题在Haskell Curry上得到扩展,梯度下降已用于从线性回归到深度神经网络的各种算法。

虽然梯度下降及其反向传播形式的重新用途已成为机器学习的最大突破之一,但神经网络的优化仍然是一个尚未解决的问题。互联网上的许多人都愿意宣称"梯度下降很烂",尽管可能有些遥远,但梯度下降确实存在许多问题。

  • 优化程序陷入了足够深的局部最小值中。诚然,有一些聪明的解决方案有时可以解决这些问题,例如动量,它可以使优化器在大山丘上行走。随机梯度下降;或批量归一化,从而平滑错误空间。但是,局部最小值仍然是神经网络中许多分支问题的根本原因。
令人着迷的无梯度神经网络优化方法

 

  • 因为优化器对本地极小值很感兴趣,所以即使设法摆脱它,也要花费很长时间。梯度下降法通常是一种冗长的方法,因为它的收敛速度慢,即使对大数据集(如批梯度下降法)进行了调整也是如此。
  • 梯度下降对优化器的初始化特别敏感。例如,如果优化器在第二个局部最小值而不是第一个局部最小值附近初始化,则性能可能会好得多,但这都是随机确定的。
  • ·学习率决定了优化器的信心和风险。设置过高的学习率可能会导致它忽略全局最小值,而过低的学习会导致运行时间中断。为了解决这个问题,学习率随着迭代衰减,但是在许多指示学习率的变量中选择衰减率是困难的。
  • 梯度下降需要梯度,这意味着它除了无法处理不可微的函数外,还容易出现基于梯度的问题,例如消失或爆炸的梯度问题。

当然,已经对梯度下降进行了广泛的研究,并且提出了许多建议的解决方案,其中一些解决方案是GD变体,而其他解决方案是基于网络体系结构的。仅仅因为梯度下降被高估了并不意味着它不是当前可用的最佳解决方案。即使使用批处理规范化来平滑错误空间或选择复杂的优化器(如Adam或Adagrad),这些通用知识也不是本文的重点,即使它们通常表现更好。

取而代之的是,本文的目的是向一些晦涩难懂的确定性有趣的优化方法提供一些理所应得的信息,这些方法不适合基于梯度的标准方法,该方法与任何其他用于改善该方法性能的技术一样。神经网络在某些情况下表现特别出色,而在其他情况下则表现不佳。无论他们在特定任务上的表现如何,他们对于机器学习的未来都充满着魅力,创造力和充满希望的研究领域。


专栏
深度学习入门系列讲解
作者:AI火箭营
168币
357人已购
查看

粒子群优化PSO

粒子群优化是一种基于种群的方法,它 定义了一组探索搜索空间并试图寻找最小值的"粒子"。PSO相对于某个质量指标迭代地改进了候选解决方案。它通过拥有大量潜在的解决方案("粒子")并根据简单的数学规则(例如粒子的位置和速度)移动它们来解决该问题。每个粒子的运动都受到其认为最佳的局部位置的影响,但也被搜索位置(由其他粒子找到)中最知名的位置所吸引。从理论上讲,该群体经过多次迭代以求出最佳解决方案。

令人着迷的无梯度神经网络优化方法

资料来源:维基

PSO是一个有趣的想法-与神经网络相比,它对初始化的敏感度要低得多,并且在某些发现上的粒子之间的通信可能被证明是一种搜索稀疏和大面积区域的非常有效的方法。

因为粒子群优化不是基于梯度的(gasp!),所以不需要优化问题是可微的。因此,使用PSO优化神经网络或任何其他算法将对选择其他函数中的激活函数或等效角色具有更大的自由度和更低的敏感性。此外,它几乎没有关于优化问题的假设,甚至可以搜索很大的空间。

可以想象,基于总体的方法比基于梯度的优化器在计算上要昂贵得多,但不一定如此。由于该算法是如此开放和非刚性-正如基于进化的算法通常如此,因此人们可以控制粒子的数量,粒子的移动速度,全局共享的信息量等等。就像可能会调整神经网络中的学习率一样。

代理优化是一种优化方法,它尝试使用另一个完善的函数对损失函数建模以找到最小值。该技术从损失函数中采样"数据点",这意味着它尝试使用不同的参数值(x)并存储损失函数的值(y)。在收集到足够数量的数据点之后,将代理函数(在这种情况下为7次多项式)拟合到所收集的数据。

令人着迷的无梯度神经网络优化方法

 

因为找到多项式的最小值是一个经过充分研究的主题,并且存在许多使用导数来找到多项式的全局最小值的非常有效的方法,所以我们可以假定替代函数的全局最小值对于损失是相同的函数。

代理优化从技术上讲是一种非迭代方法,尽管代理功能的训练通常是迭代的。此外,从技术上讲,它是一种无梯度方法,尽管查找建模函数全局最小值的有效数学方法通常基于导数。但是,由于迭代和基于梯度的属性都是替代优化的"次要"属性,因此它可以处理大数据和不可微的优化问题。

使用代理函数的优化在以下几种方面的特性:

  • 它实质上是在平滑真实的损失函数的表面,从而减少了锯齿状的局部最小值,该局部最小值导致了神经网络中大量额外的训练时间
  • 它将一个困难的问题投影到一个容易得多的问题上:无论是多项式,RBF、GP、MARS还是其他替代模型,寻找全局最小值的任务都会借助数学知识来完成。
  • 过拟合替代模型并不是什么大问题,因为即使有相当多的过拟合,替代函数也比真实损失函数更平滑,参差不齐。除了建立简化的数学倾向模型外,还有许多其他标准考虑因素,因此训练替代模型要容易得多。
  • 替代优化不受当前位置的限制,因为它看到了"整个函数",而不是梯度下降,梯度下降必须不断做出危险的选择,以决定是否认为下一个山峰会有更深的最小值。

替代优化几乎总是比梯度下降方法快,但通常以准确性为代价。使用代理优化可能只能查明全局最小值的大致位置,但这仍然可以极大地受益。

另一种方法是混合模型。替代优化用于将神经网络参数带到粗略位置,从中可以使用梯度下降法找到确切的全局最小值。另一个方法是使用替代模型来指导优化程序的决策,因为替代函数可以a)"先见之明"和b)对损失函数的特定起伏不敏感。


专栏
深度学习的高级议题
作者:AI火箭营
199币
13人已购
查看

模拟退火

模拟退火是基于冶金退火的概念,其中可以将材料加热到其重结晶温度以上,以降低其硬度并改变其他物理特性,有时还改变化学特性,然后使材料逐渐冷却并再次变硬。

使用缓慢冷却的概念,随着对溶液空间的探索,模拟退火缓慢地降低了接受较差溶液的可能性。由于接受较差的解决方案可以对全局最小值进行更广泛的搜索(认为-越过山丘进入更深的山谷),因此模拟退火假定可以在第一次迭代中正确表示和探索各种可能性。随着时间的流逝,该算法从探索转向开发。

以下是模拟退火算法如何工作的粗略概述:

1. 温度设置为某个初始正值,然后逐渐接近零。

2. 在每个时间步长上,算法都会随机选择一个与当前解决方案接近的解决方案,测量其质量,然后根据当前温度(接受更好或更差的解决方案的可能性)移至该解决方案。

3. 理想情况下,当温度达到零时,该算法已收敛于全局最小解。

可以使用动力学方程式或随机采样方法进行模拟。模拟退火用于解决旅行商问题,该问题试图找到数百个位置之间的最短距离,以数据点表示。显然,这些组合是无止境的,但是模拟退火(加上强化学习的效果)效果很好。

令人着迷的无梯度神经网络优化方法

模拟的旅行商问题退火解决方案。资料来源:维基

在需要在短时间内找到近似解的情况下,模拟退火效果特别好,胜过缓慢的梯度下降速度。像代理优化一样,它可以与梯度下降混合使用,从而具有以下优点:模拟退火的速度和梯度下降的准确性。

这是一些非梯度方法的样本;还有许多其他的算法,例如模式搜索和多目标优化,都需要探索。鉴于我们人类遗传成功的证据,因此基于遗传和种群的算法(例如粒子群优化)对于创建真正的"智能"代理非常有前途。

非梯度优化方法之所以令人着迷,是因为它们很多都利用了创造力,而不受梯度数学链的限制。没有人期望无梯度方法能够成为主流,因为即使考虑到许多问题,基于梯度的优化也能如此出色。但是,将无梯度和基于梯度的方法的强大功能与混合优化器一起使用证明了极高的潜力,特别是在我们达到计算极限的时代。



Tags:神经网络优化   点击:()  评论:()
声明:本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,如有任何标注错误或版权侵犯请与我们联系(Email:2595517585@qq.com),我们将及时更正、删除,谢谢。
▌相关推荐
\ 梯度下降是机器学习中最重要的思想之一:给定一些代价函数以使其最小化,该算法迭代地采取最大下降斜率的步骤,理论上在经过足够的迭代次数后才达到最小值。柯西(Cauchy)于1847...【详细内容】
2020-08-02  Tags: 神经网络优化  点击:(95)  评论:(0)  加入收藏
▌简易百科推荐
在海洋、陆地、天空三片领域中,都有处在食物链顶端的王者,它们站在食物链顶端,拥有王者的身份,如海洋霸主虎鲸是毫无争议的海洋王者,在海洋中,基本上是所向披靡,没有天敌,而草原王者...【详细内容】
2021-12-17  小楠动物世界    Tags:   点击:(7)  评论:(0)  加入收藏
氦元素在全宇宙的质量中大约占了24%,但是在地球大气中的浓度为5.2 ppm(1ppm=0.0001%)[1],因此称它为稀有气体。稀有气体也被称为惰性气体,化学反应上的惰性也是造成氦气在地球上含...【详细内容】
2021-12-15  中科院物理所    Tags:稀有气体   点击:(8)  评论:(0)  加入收藏
在管理工作中,有些传统的做法是错误的,我们要避免犯这些错误。以下这11条,都是错的。 01 . 拒绝承担个人责任有一次,有一项工作出了差错,董事长把我叫去骂了一顿。我对董事长说,“...【详细内容】
2021-12-14  股权设计布局    Tags:管理   点击:(5)  评论:(0)  加入收藏
对光的研究起源于古希腊,在那里,哲学家们开始思考视觉是如何工作的。柏拉图和毕达哥拉斯等思想家认为,我们的眼睛会发出微弱的光线进行探测。这些光线将收集我们周围物体的信息...【详细内容】
2021-12-08    中科院物理所  Tags:   点击:(12)  评论:(0)  加入收藏
据阿根廷布宜诺斯艾利斯经济新闻网12月6日报道,进食后感到困倦或疲惫是很常见的。这可以解释为,在那一刻,身体所有的能量都“投入”在消化过程中,短时间内感到有点昏昏欲睡非常...【详细内容】
2021-12-08    参考消息  Tags:犯困   点击:(7)  评论:(0)  加入收藏
量子力学能用来干什么?更该问的是它不能干什么!在知道了量子力学这个学科后,许多人就会来问:它能用来干什么?实际上,这个问题问偏了。真正有意义的问题是:量子力学不能用来干什么?因...【详细内容】
2021-12-07  中科院物理所    Tags:量子力学   点击:(14)  评论:(0)  加入收藏
电流是什么?首先回想下,我们学过的电流的定义是什么?很简单,导体中的带电粒子的定向运动就是电流。只有当物质内具有能自由移动的带电粒子,它才可以传输电流——即导电...【详细内容】
2021-12-07    中科院物理所  Tags:电流   点击:(22)  评论:(0)  加入收藏
要理解光速不变原理。首先要有抛弃固有的思维模式的思想准备,否则不容易理解。因为爱因斯坦这个理论有点离经叛道。 我们都知道,描叙一个运动,必须有参考系才有意义。说一列火...【详细内容】
2021-11-30  宇宙探索    Tags:光速不变   点击:(18)  评论:(0)  加入收藏
一半是彻夜无眠,而床上的另一半是呼噜声连绵不绝。这个场景恐怕是很多家庭的真实写照了吧。更让人崩溃的是,推一下不打了,下一秒又开始了“呼~~~呼~~呼”。给我闭嘴!!!那为什么“...【详细内容】
2021-11-17    科普中国  Tags:打呼噜   点击:(21)  评论:(0)  加入收藏
光合作用是指绿色植物的叶片吸收和利用太阳光能将植物吸收的,二氧化碳和水综合成富含能量的有机物,并释放出氧气的过程,这也是大搞植树造林能改变气候环境的原因之一,光合作用的...【详细内容】
2021-11-17  农业百晓生    Tags:光合作用   点击:(22)  评论:(0)  加入收藏
相关文章
    无相关信息
最新更新
栏目热门
栏目头条