Andrew Ng-深度学习-第二门课-week2(优化算法)

从GD出发梳理优化算法的演变和各个优化算法的优缺点。1.梯度下降：1.1 批量梯度下降（）参考资料：1. 梯度下降优化算法综述-中文版2. An overview of gradient descent optimization algorithms3. 第二周：优化算法 (Optimization algorithms)Adam那么棒，为什么还对SGD念念不忘 (1) —— 一个框...

linxid

263人浏览 · 2019-08-21 08:37:48

linxid · 2019-08-21 08:37:48 发布

从GD出发梳理优化算法的演变和各个优化算法的优缺点。

1.梯度下降：

1.1 批量梯度下降（batch gradient descent）

每次迭代更新参数，在整个数据集上计算所有的梯度。
$\theta=\theta-\eta \cdot \nabla_{\theta} J(\theta)$
缺点：

更新速度慢；
内存限制，容易超出；
无法在线更新模型，即增加训练样本；

1.2 随机梯度下降：

随机梯度下降法（stochastic gradient descent, SGD）根据每一条训练样本x(i)和标签y(i)更新参数：
$\theta=\theta-\eta \cdot \nabla_{\theta} J\left(\theta ; x^{(i)} ; y^{(i)}\right)$
优点：

运行速度快；
可在线学习；

缺点：

Loss下降会出现剧烈波动，高方差频繁更新，有很多噪声；

1.3 小批量梯度下降法

每次更新时使用n个小批量训练样本：
$\theta=\theta-\eta \cdot \nabla_{\theta} J\left(\theta ; x^{(i : i+n)} ; y^{(i : i+n)}\right)$
优点：

减小参数更新方差，收敛更稳定；
矩阵优化，加快求解速度；

1.4 传统梯度下降的挑战：

选择一个合适的学习率很困难，太大收敛慢，太小收敛波动；
学习率固定不变，不利于收敛；
鞍点梯度为0，SGD很难逃离。

由于存在种种的挑战，然后提出了后续各种强化的优化算法。

2. 指数加权平均：

指数加权平均并不是一个优化算法，但是后面的算法都和指数加权平均相关。
以温度为例子，如果要求温度的趋势，也就是求温度的局部平均值，或者滑动平均。但是滑动平均的计算开销较大，所以考虑指数加权平均。
$v_{t}=\beta v_{t-1}+(1-\beta) \theta_{t}$

$v_{t}：$ t时刻的趋势值；
$\theta_{t}$ ：t时刻的温度值；

指数加权平均的本质其实是用历史数据来拟合当下数据，距离当前时刻越近的数据，所占权重越大，距离越远的数据，权重越小。

假设上述公式 $\beta=0.9, t=100$ ，化简后：
$v_{100}=0.1 \theta_{100}+0.1 \times 0.9 \theta_{99}+0.1 \times(0.9)^{2} \theta_{98}+0.1 \times(0.9)^{3} \theta_{97}+0.1 \times(0.9)^{4} \theta_{96}+\dots$

而后面的动量梯度下降其实就是梯度值的指数加权平均。

3. 梯度下降优化算法：

3.1 动量法(Momentum)：

利用前面所介绍的指数加权平均，将历史梯度值添加到当前梯度更新向量中。 $\beta$ 一般选择0.9。
$v_{d W}=\beta v_{d W}+(1-\beta) d W \\ W :=W-a v_{d W}$

在Loss波动较大的方向，能够起到抑制的作用。
能够控制波动

从本质上说，动量法，就像我们从山上推下一个球，球在滚下来的过程中累积动量，变得越来越快（直到达到终极速度，如果有空气阻力的存在，则γ<1）。同样的事情也发生在参数的更新过程中：对于在梯度点处具有相同的方向的维度，其动量项增大，对于在梯度点处改变方向的维度，其动量项减小。因此，我们可以得到更快的收敛速度，同时可以减少摇摆。