<font color=red>**字体变为红色的代码**</font> <font size=4>我是尺寸</font>
2.2.3 优化算法
① 梯度下降法
- 最简单、常用的优化算法:梯度下降法;
②提前停止
- 防止过拟合的除了可以适用正则化项之外,还可以通过提前终止的方法.
- 提前终止的含义:就是看模型在测试集上的效果(如果错误率不再降低,就说明训练好了,就停止迭代)
③随机梯度下降(SGD)
- 以往的梯度下降是批量梯度下降法(BGD).(每次迭代时需要计算每个样本的损失函数并求和,所以当数量N比较大时,迭代的计算开销较大)
- 批量梯度下降和随机梯度下降之间的区别在于,每次迭代的优化目标是对所有样本的平均损失函数还是对单个样本的损失函数.
④ 小批量梯度下降
- 随机梯度无法充分利用计算机的并行能力.
- Mini-batch Gradient Descent:批量梯度下降和SGD的折中
- 每次迭代时,随机选取一小部分训练样本来计算梯度并更新参数