正则化
1.什么是正则化
不知道建立模型的时候建立到多复杂才合适怎么办?那么我们先做到模型足够复杂!
足够的复杂之后,会有一个冗余的复杂度,容易过拟合。
因此,我们可以通过正则化的方法,将冗余的复杂度降低。
思路:剔除高次项的,将高次项的系数变成0或者趋近于0。
在解决回归过拟合中,我们选择正则化。但是对于其他机器学习算法如分类算法来说也会出现这样的问题,除了一些算法本身作用之外(决策树、神经网络),我们更多的也是去自己做特征选择,包括之前说的删除、合并一些特征。
如何解决?
在学习的时候,数据提供的特征有些影响模型复杂度或者这个特征的数据点异常较多,所以算法在学习的时候尽量减少这个特征的影响(甚至删除某个特征的影响),这就是正则化
注:调整时候,算法并不知道某个特征影响,而是去调整参数得出优化的结果
2.正则化类别
(1)L2正则化
取所有w的绝对值的平方的和小于设定的值,之前那样限定综合,有限定之后,比如w2大的时候,w1要小,如果w4不起作用,就要把他删掉,份额就可以分配给其他的w了。
可以使得其中一些W的都很小,都接近于0,削弱某个特征的影响
- 作用
- 优点
- Ridge回归
(2)L1正则化
取所有w的绝对值的和小于设定的值,之前那样限定综合,有限定之后,比如w2大的时候,w1要小,如果w4不起作用,就要把他删掉,份额就可以分配给其他的w了
可以使得其中一些W的值,直接为0,删除这个特征的影响
- 作用
- LASSO回归
具体如何正则化线性模型?请看接下来的“正则化系列”的博客。
- LASSO回归