简介

梯度下降法不是一个机器学习算法
是一种基于搜索的最优化方法
作用:最小化一个损失函数
梯度上升法:最大化一个效用函数

在直线方程中,导数代表斜率
在曲线方程中,导数代表切线斜率
导数可以代表方向,对应 J J J增大的方向
η d J d θ -\eta \frac{dJ}{d\theta} ηdθdJ
η \eta η称为学习率(learning rate)
η \eta η的取值影响获得最优解的速度
η \eta η取值不合适,甚至得不到最优解
η \eta η是梯度下降的一个超参数
并不是所有函数都有唯一的极值点
解决方案:
多次运行,所及初始点
梯度下降法的初始点也是一个超参数

线性回归中使用梯度下降法

目标: 使 i = 1 m ( y ( i ) <mover accent="true"> y ^ </mover> ( i ) ) 2 \sum\limits_{i=1}^m(y^{(i)} - \hat y^{(i)})^2 i=1m(y(i)y^(i))2尽可能小
线性回归法的损失函数具有唯一的最优解

模拟梯度下降法