参考https://zhuanlan.zhihu.com/p/35356992

L1正则化和L2正则化:

L1正则化:在loss function后边所加正则项为L1范数,加上L1范数容易得到稀疏解(0比较多)。非平滑,求导困难,需要寻求凸优化方法来求解:proximal operator
L2正则化:loss function后边所加正则项为L2范数的平方,加上L2正则相比于L1正则来说,得到的解比较平滑(不是稀疏),但是同样能够保证解中接近于0(但不是等于0,所以相对平滑)的维度比较多,降低模型的复杂度。