深度学习可能会问到的问题:

SGD随机梯度下降:容易陷入局部最优解,学习率固定
adagrad:如下图

adadelta:如下图

adam
momentum:也是做梯度下降,是一种梯度下降的优化算法。学习率还是固定的,加入了动量,进行累加,有跳出局部最优解的能力,比较稳定,
optimizer算法,在