作为三大知名GBDT的实现之一
LightGBM的优点:
1.就是快的
2.同时精度还高
工程上的实现比Xgboost要好很多,所以计算比较快,看了原文才知道这内有乾坤,而且都是很容易理解的道理。
快:
开门见山的说,LGB(LightGBM,下文均采用此缩写)不需要通过所有样本计算信息增益了,而且内置特征降维技术,所以更快。至于LGB精度高的原因,论文中并没有给出明确的答案,但我看完后心里却有了自己的答案,很想和诸位讨论一番。
XGB采用了直方图加速,只需要遍历几个可能的分裂节点就好了!它也不需要计算所有样本吖!
这里的意思是,XGB虽然每次只需要遍历几个可能的分裂节点,然后比较每个分裂节点的信息增益,选择最大的那个进行分割,但比较时需要考虑所有样本带来的信息增益。而LGB只需采用少量的样本计算信息增益,所以速度会快很多。
那么问题就来了,如果选少量的样本算信息增益,该如何保证把信息损失降到最低呢?且听我慢慢道来。
LGB选择梯度大的样本来计算信息增益。原文给出的理由如下:
if an instance is associated with a small gradient, the training error for this instance is small and it is already well trained.
如果一个样本的梯度较小,证明这个样本训练的误差已经很小了,所以不需要计算了。我们在XGB的那篇文章中说过,GBDT的梯度算出来实际上就是残差,梯度小残差就小,所以该样本拟合较好,不需要去拟合他们了。
这听起来仿佛很有道理,但问题是丢掉他们会改变数据的分布,还是无法避免信息损失,进而导致精度下降,所以LGB提出了一个很朴实无华且枯燥的方法进行优化。
LGB的优化方法是,在保留大梯度样本的同时,随机地保留一些小梯度样本,同时放大了小梯度样本带来的信息增益。
这样说起来比较抽象,我们过一遍流程: 首先把样本按照梯度排序,选出梯度最大的a%个样本,然后在剩下小梯度数据中随机选取b%个样本,在计算信息增益的时候,将选出来b%个小梯度样本的信息增益扩大 1 - a / b 倍。这样就会避免对于数据分布的改变。
这给我的感觉就是一个公寓里本来住了十个人,感觉太挤了,赶走了六个人,但剩下的四个人要分摊他们六个人的房租。
除了通过部分样本计算信息增益以外,LGB还内置了特征降维技术,思想就是合并那些冲突小的稀疏特征。
举个例子,对于一列特征[1,nan,1,nan,1]和一列特征[nan,1,nan,1,nan],他们正好可以合并成一列特征[1,2,1,2,1]。LGB的目标就是在于找到这样的特征并且将他们合并在一起。
如果把特征抽象成图中的点,特征之间的冲突看作是图中的边,那么问题就转换为找出图中的社团并使图中的社团数量最少。LGB里提出了一个贪心的策略,按照有权度来为图中所有的点排序,然后把特征合并到度小于某个阈值的社团中或单独创建一个社团。
对于特征如何合并,一个重要的原则就是使合并的两个特征可以被顺利区分出来,LGB采取了一个更改阈值的方法。例如对于特征x∈(0, 10), 特征y∈(0, 20),就可以把特征y转换为y∈(10,30),然后再去合并x与y。
但是更多的情况,对于有数据科学经验的工程师,在使用前往往会避免在特征中掺杂大量稀疏属性。
精度高:
至于LGB为什么比XGB的精度高这一点,我的理解是选择梯度大(残差大)样本来进行特征分裂生成的树,借鉴了Adaboost的更改样本权重的思想。每棵树针对某些特定训练样本有着较好的划分能力,导致每棵树之间的异质性较大,对于效果近似但异质性大的模型加权往往会带来更大的提升。不知道诸位有没有更好的观点~