目标函数

Lasso相当于带有L1正则化项的线性回归。先看下目标函数： $R S S (w) + λ ∥ w ∥_{1} = \sum_{i = 0}^{N} (y_{i} - \sum_{j = 0}^{D} w_{j} h_{j} (x_{i}))^{2} + λ \sum_{j = 0}^{D} ∣ w_{j} ∣$
这个问题由于正则化项在零点处不可求导，所以使用非梯度下降法进行求解，如坐标下降法或最小角回归法。

坐标下降法

本文介绍坐标下降法。
坐标下降算法每次选择一个维度进行参数更新，维度的选择可以是随机的或者是按顺序。
当一轮更新结束后，更新步长的最大值少于预设阈值时，终止迭代。

下面分为两部求解

RSS偏导

下面做一下标记化简
$ρ_{j} = \sum_{i = 1}^{N} h_{j} (x_{i}) (y_{i} - \sum_{k \neq j} w_{k} h_{k} (x_{i}))$
$z_{j} = \sum_{i = 1}^{N} h_{j} (x_{i})^{2}$
上式化简为 $\frac{\partial}{\partial w_{j}} R S S (w) = - 2 ρ_{j} + 2 w_{j} z_{j}$

正则项偏导

次梯度方法(subgradient method)是传统的梯度下降方法的拓展，用来处理不可导的凸函数。

$λ \partial_{w_{j}} ∣ w_{j} ∣ = {\begin{matrix} <mstyle displaystyle="false" scriptlevel="0"> - λ </mstyle> & <mstyle displaystyle="false" scriptlevel="0"> w_{j} < 0 </mstyle> \\ <mstyle displaystyle="false" scriptlevel="0"> [- λ, λ] </mstyle> & <mstyle displaystyle="false" scriptlevel="0"> w_{j} = 0 </mstyle> \\ <mstyle displaystyle="false" scriptlevel="0"> λ </mstyle> & <mstyle displaystyle="false" scriptlevel="0"> w_{j} > 0 </mstyle> \end{matrix}$

整体偏导数

$λ \partial_{w_{j}} <mtext> [lasso cost] </mtext> = 2 z_{j} w_{j} - 2 ρ_{j} + {\begin{matrix} <mstyle displaystyle="false" scriptlevel="0"> - λ </mstyle> & <mstyle displaystyle="false" scriptlevel="0"> w_{j} < 0 </mstyle> \\ <mstyle displaystyle="false" scriptlevel="0"> [- λ, λ] </mstyle> & <mstyle displaystyle="false" scriptlevel="0"> w_{j} = 0 </mstyle> \\ <mstyle displaystyle="false" scriptlevel="0"> λ </mstyle> & <mstyle displaystyle="false" scriptlevel="0"> w_{j} > 0 </mstyle> \end{matrix} = {\begin{matrix} <mstyle displaystyle="false" scriptlevel="0"> 2 z_{j} w_{j} - 2 ρ_{j} - λ </mstyle> & <mstyle displaystyle="false" scriptlevel="0"> w_{j} < 0 </mstyle> \\ <mstyle displaystyle="false" scriptlevel="0"> [- 2 ρ_{j} - λ, - 2 ρ_{j} + λ] </mstyle> & <mstyle displaystyle="false" scriptlevel="0"> w_{j} = 0 </mstyle> \\ <mstyle displaystyle="false" scriptlevel="0"> 2 z_{j} w_{j} - 2 ρ_{j} + λ </mstyle> & <mstyle displaystyle="false" scriptlevel="0"> w_{j} > 0 </mstyle> \end{matrix}$
要想获得最有解，令

$λ \partial_{w_{j}} <mtext> [lasso cost] </mtext> = 0$ 。
解得，
${<mover accent="true">}_{w^</mover> j} = {\begin{matrix} <mstyle displaystyle="false" scriptlevel="0"> (ρ_{j} + λ / 2) / z_{j} </mstyle> & <mstyle displaystyle="false" scriptlevel="0"> ρ_{j} < - λ / 2 </mstyle> \\ <mstyle displaystyle="false" scriptlevel="0"> 0 </mstyle> & <mstyle displaystyle="false" scriptlevel="0"> ρ_{j} <mtext> in </mtext> [- λ / 2, λ / 2] </mstyle> \\ <mstyle displaystyle="false" scriptlevel="0"> (ρ_{j} - λ / 2) / z_{j} </mstyle> & <mstyle displaystyle="false" scriptlevel="0"> ρ_{j} > λ / 2 </mstyle> \end{matrix}$

伪代码

预计算 $z_{j} = \sum_{i = 1}^{N} h_{j} (x_{i})^{2}$
初始化参数w（全0或随机）
循环直到收敛:

for j = 0,1,…D
$ \space \space\space\space\rho_j=\sum_{i=1}^Nh_j(x_i)(y_i-\sum_{k \neq j }w_kh_k(x_i))$
$<mtext> </mtext> u p d a t e <mtext> </mtext> w_{j}$
选择变化幅度最大的维度进行更新

概率解释

拉普拉斯分布

随机变量 $X \sim L a p l a c e (μ, b)$ ，其中 $μ$ 是位置参数， $b > 0$ 是尺度参数。
概率密度函数为
$f (x ∣ μ, b) = \frac{1}{2 b} e x p (- \frac{∣ x - μ ∣}{b})$

MAP推导

假设 $ϵ_{i} \sim N (0, σ^{2})$ ， $w_{i} \sim L a p l a c e (0, \frac{1}{λ})$

等价于

Lasso回归的坐标下降法推导