简介
梯度下降法不是一个机器学习算法
是一种基于搜索的最优化方法
作用:最小化一个损失函数
梯度上升法:最大化一个效用函数
在直线方程中,导数代表斜率
在曲线方程中,导数代表切线斜率
导数可以代表方向,对应 J增大的方向
−ηdθdJ
η称为学习率(learning rate)
η的取值影响获得最优解的速度
η取值不合适,甚至得不到最优解
η是梯度下降的一个超参数
并不是所有函数都有唯一的极值点
解决方案:
多次运行,所及初始点
梯度下降法的初始点也是一个超参数
线性回归中使用梯度下降法
目标: 使 i=1∑m(y(i)−y^(i))2尽可能小
线性回归法的损失函数具有唯一的最优解