XGBoost原理简介

文章目录

XGBoost原理简介

1. 背景

今天听了贪心学院主办，李文哲老师主讲的《XGBoost的技术剖析》直播，让我对XGB的原理有了一些了解。于是我想写一篇笔记整理一下听课的内容。

老师讲得挺通俗易懂的，不过由于XGB本身具有一定的复杂性，要看懂这篇笔记需要有如下的背景知识：

决策树的原理
泰勒级数
损失函数
惩罚函数

如果对这些概念不太了解，推荐阅读复旦大学邱锡鹏老师的开源书《神经网络与深度学习》还有人民邮电出版社的《机器学习实战》，泰勒级数可以参考高数课本和网络资料。

2. Boosting

从 XGBoost 这个名字就能看出来，这个模型使用了 Boosting 的方法，那么我们就来先了解一下 Boosting 它是个啥玩意儿。

$<mtext> Figure 1. Bagging vs Boosting </mtext>$

老师的PPT中对比了 Bagging 和 Boosting 两种常用的集成学习方法。

Bagging：利用多个过拟合的弱学习器来获得更好的效果。典型的算法有随机森林。
Boosting：利用多个欠拟合的弱学习器来获得更好的效果。典型的算法有GBDT/GBRT，Adaboost，XGBoost和LightGBM。

Boosting 本身在不同算法中的具体应用也不完全相同，而从 XGBoost ¹的论文中我们能够了解到，它主要借鉴了 GBDT 的 Boosting 方法

为了加深对 Boosting 的了解，我把 GBDT ² 的论文也找出来看了一下。

2.1. 建立映射

首先，我们通过公式 $(1)$ 建立从 $x$ 到 $y$ 的映射。

$\begin{matrix} <mover accent="true"> y^</mover> = F (x; {β_{m}, a_{m}}_{1}^{M}) = <munderover> \sum m = 1 M </munderover> β_{m} h (x; a_{m}) & <mtext> (1) </mtext> \end{matrix}$

这里的 $x$ 和 $a_{m}$ 用粗体显示，表示它们都是向量， $<mover accent="true"> y^</mover>$ 表示模型的预测值。

公式 $(1)$ 中的 $h (x; a_{m})$ 表示一个个弱分类器， $a_{m}$ 是弱分类器的参数， $β_{m}$ 是其权重， ${β_{m}, a_{m}}_{1}^{M}$ 是 $a_{m}$ 和 $β_{m}$ 的 $M$ 个组合。 $M$ 表示弱分类器的数量。

公式 $(1)$ 表示 GBDT 是通过对多个弱分类器结果进行线性加权求和从而求出最终结果的。

2.2. 计算参数

建立了 $x$ 到 $y$ 的映射之后，我们就需要考虑如何去计算函数中的参数。

$\begin{matrix} (β_{m}, a_{m}) = \arg <munder> \min β, a </munder> <munderover> \sum i = 1 N </munderover> L (y_{i}, F_{m - 1} (x_{i}) + β h (x_{i}; a)) & <mtext> (2) </mtext> \end{matrix}$

公式 $(2)$ 中， $<mstyle displaystyle="true" scriptlevel="0"> \arg <munder> \min β, a </munder> </mstyle>$ 表示使其右边的表达式最小的 $(β, a)$ 组合， $L (y_{i}, <mover accent="true"> y_{i}^</mover>)$ 为损失函数。

公式 $(2)$ 说明参数 $(β_{m}, a_{m})$ 是通过使得损失函数最小化计算出来的，具体如何计算就取决于我们使用什么具体的损失函数和优化器了。

同时，我们还可以推出公式 $(3)$ 。

$\begin{matrix} F_{m} (x) = F_{m - 1} (x) + β_{m} h (x; a_{m}) & <mtext> (3) </mtext> \end{matrix}$

公式 $(3)$ 中 $F_{m} (x)$ 是训练完 $m$ 个弱分类器以后，模型的输出结果。

公式 $(3)$ 说明 GBDT 在训练每第 $m$ 个弱分类器时，我们需要先将前 $m - 1$ 个弱分类器的预测结果求和，从而获得一个新的预测结果，在此基础上对第 $m$ 个弱分类器进行训练和预测。即新的弱分类器是在已有模型的残差上进行训练的。

可理解为如下公式。

$\begin{matrix} β_{m} h (x; a_{m}) \to (y_{i} - <munderover> \sum k = 1 m - 1 </munderover> β_{k} h (x; a_{k})) & <mtext> (4) </mtext> \end{matrix}$

即第 $m$ 个弱分类器的训练目标是输出趋近于 $y_{i}$ 和前 $m - 1$ 个弱分类器的结果之和的差值。

再结合老师PPT中的例子，应该就能够很好地理解 Boosting 的作用。

$<mtext> Figure 2. Boost Tree </mtext>$

$<mtext> Figure 3. Model Predict </mtext>$

3. XGBoost的目标函数

了解了 Boosting 之后，我们就可以开始学习 XGBoost 了，首先从它的目标函数开始分析。

$<mtext> Figure 4. Object Function </mtext>$

我们一般使用树模型来作为弱分类器，假设有 $K$ 颗树，对第 $i$ 个输入，它们的预测值为 ${<mover accent="true">}_{y^</mover> i}$ 。

$\begin{matrix} {<mover accent="true">}_{y^</mover> i} = <munderover> \sum k = 1 K </munderover> f_{k} (x_{i}), <mtext> </mtext> f_{k} \in F & <mtext> (5) </mtext> \end{matrix}$

公式 $(5)$ 中 $f_{k} (x_{i})$ 表示第 $k$ 颗树对第 $i$ 个输入向量的预测输出。

而 XGBoost 的目标函数由损失函数和惩罚函数组成，这一点大多数机器学习模型都差不多。通过最小化损失函数来提高预测精度，引入惩罚函数来控制模型复杂度，防止过拟合。

$\begin{matrix} O b j = <munderover> \sum i = 1 n </munderover> l (y_{i}, {<mover accent="true">}_{y^</mover> i}) + <munderover> \sum k = 1 K </munderover> Ω (f_{k}) & <mtext> (6) </mtext> \end{matrix}$

公式 $(6)$ 中的 $n$ 表示输入数据的总数目，我们的优化目标就是最小化目标函数。

$\begin{matrix} \min O b j & <mtext> (7) </mtext> \end{matrix}$

4. 化简目标函数

有了目标函数以后，我们还没有好的办法直接对它进行求解，还需要进行化简。图5是老师的PPT。

$<mtext> Figure 5. Additive Traning </mtext>$

图5的左半部分主要在解释Additive Traning，和我们在 Boosting 部分提到的类似。我们主要关注右半部分的化简过程。

通过将 ${<mover accent="true">}_{y^</mover> i}$ 展开，去除常数项，可以将目标函数化简为

$\begin{matrix} \begin{matrix} <mstyle displaystyle="true" scriptlevel="0"> O b j </mstyle> & <mstyle displaystyle="true" scriptlevel="0"> = <munderover> \sum i = 1 n </munderover> l (y_{i}, {<mover accent="true">}_{y}^{^}) + <munderover> \sum k = 1 K </munderover> Ω (f_{k}) </mstyle> & <mstyle displaystyle="true" scriptlevel="0"> </mstyle> \\ <mstyle displaystyle="true" scriptlevel="0"> </mstyle> & <mstyle displaystyle="true" scriptlevel="0"> = <munderover> \sum i = 1 n </munderover> l (y_{i}, {<mover accent="true">}_{y}^{^} + f_{k} (x_{i})) + Ω (f_{k}) </mstyle> & <mstyle displaystyle="true" scriptlevel="0"> </mstyle> \end{matrix} & <mtext> (8) </mtext> \end{matrix}$

此处利用了公式 $(5)$ 将 ${<mover accent="true">}_{y}^{^}$ 中前 $k - 1$ 项分离了出来。因为前 $k - 1$ 项已经在各自的训练过程中优化过了，在这里可以视为常数项，所以我们将惩罚函数中的前 $k - 1$ 项去除，仅考虑要优化的 $f_{k}$ 部分。

5. 使用泰勒级数近似目标函数

尽管我们对目标函数进行了化简，但直接对目标函数进行求解，运算的复杂度会非常高，所以我们选择对目标函数进行二级泰勒展开，提高模型的训练速度。

$<mtext> Figure 6. Taylor Expansion </mtext>$

根据公式 $(9)$ 中的二级泰勒展开式。

$\begin{matrix} f (x + Δ x) \approx f (x) + f^{'} (x) \cdot Δ x + \frac{1}{2} f^{''} (x) \cdot Δ x^{2} & <mtext> (9) </mtext> \end{matrix}$

对目标函数进行展开：

$\begin{matrix} \begin{matrix} <mstyle displaystyle="true" scriptlevel="0"> O b j </mstyle> & <mstyle displaystyle="true" scriptlevel="0"> = <munderover> \sum i = 1 n </munderover> l (y_{i}, {<mover accent="true">}_{y}^{^} + f_{k} (x_{i})) + Ω (f_{k}) </mstyle> & <mstyle displaystyle="true" scriptlevel="0"> </mstyle> \\ <mstyle displaystyle="true" scriptlevel="0"> </mstyle> & <mstyle displaystyle="true" scriptlevel="0"> = <munderover> \sum i = 1 n </munderover> [l (y_{i}, {<mover accent="true">}^{y^</mover> (k - 1)}) + g_{i} f_{k} (x_{i}) + \frac{1}{2} h_{i} f_{k}^{2} (x_{i})] + Ω (f_{k}) </mstyle> & <mstyle displaystyle="true" scriptlevel="0"> </mstyle> \end{matrix} & <mtext> (10) </mtext> \end{matrix}$

其中 $g_{i} = \partial_{<mover accent="true"> y^</mover> (k - 1)} l (y_{i}, {<mover accent="true">}^{y^</mover> (k - 1)})$ 且 $h_{i} = \partial_{<mover accent="true"> y^</mover> (k - 1)}^{2} l (y_{i}, {<mover accent="true">}^{y^</mover> (k - 1)})$ ，对应二级泰勒展开式中的一阶导数和二阶导数，由于它们都是基于前 $k - 1$ 个模型的，所以在训练第 $k$ 个模型时也是已知的，可以视为常数项。

公式 $(10)$ 中， $l (y_{i}, {<mover accent="true">}^{y^</mover> (k - 1)})$ 也可视为常数项，并且这一项没有和变量 $f_{k} (x_{i})$ 相乘，所以我们可以将展开后的目标函数再次进行化简，结果为：

$\begin{matrix} O b j = <munderover> \sum i = 1 n </munderover> [g_{i} f_{k} (x_{i}) + \frac{1}{2} h_{i} f_{k}^{2} (x_{i})] + Ω (f_{k}) & <mtext> (11) </mtext> \end{matrix}$

6. 模型参数化

在公式 $(5)$ 中，我们提到 $f_{k} (x_{i})$ 表示第 $k$ 颗树对第 $i$ 个输入向量的预测输出。那么我们又应该如何在公式中将 $f_{k} (x_{i})$ 展开，从而进行训练和调优，最终达到优化模型的目的呢。这里我们就需要将模型参数化，将问题转化为参数优化的问题。

那么我们这一节要解决的子问题就是，如何用参数的形式来表示一颗决策树，或者说，如何将决策树的模型参数化。

我们参考周志华老师《机器学习》 ³ 书中的一个例子。

$<mtext> Figure 7. Decision Tree </mtext>$

设 ${<mover accent="true">}_{y^</mover> i} = 1$ 表示模型预测第 $i$ 个瓜为好瓜， ${<mover accent="true">}_{y^</mover> i} = 0$ 表示模型预测第 $i$ 个瓜为坏瓜。叶子节点标签后的数字为叶子节点的标号。

设 $I_{j} = {i ∣ q (x_{i}) = j}$ 为被分到第 $j$ 个叶子节点中的 $x_{i}$ 的序号集合。 $q (x_{i})$ 为输入 $x_{i}$ 到叶子节点序号的映射。

设 $w_{j} = α (j)$ 为第 $j$ 个叶子节点的 $<mover accent="true"> y^</mover>$ 值。取样例数据进行说明：

$<mtext> Table 1. Sample Data </mtext>$

序号	纹理	触感	密度	好瓜
1	清晰	硬滑	0.697	是
2	清晰	软粘	0.267	否
3	稍糊	硬滑	0.091	否

则

$\begin{matrix} <mstyle displaystyle="true" scriptlevel="0"> f_{k} (x_{1}) = α (q (x_{1})) = α (2) = 1 = w_{2} </mstyle> & <mstyle displaystyle="true" scriptlevel="0"> </mstyle> \\ <mstyle displaystyle="true" scriptlevel="0"> f_{k} (x_{2}) = α (q (x_{2})) = α (1) = 0 = w_{1} </mstyle> & <mstyle displaystyle="true" scriptlevel="0"> </mstyle> \\ <mstyle displaystyle="true" scriptlevel="0"> f_{k} (x_{3}) = α (q (x_{3})) = α (3) = 0 = w_{3} </mstyle> & <mstyle displaystyle="true" scriptlevel="0"> </mstyle> \end{matrix}$

根据上面的定义，我们继续对目标函数进行化简。

首先展开惩罚函数:

$\begin{matrix} Ω (f) = γ T + \frac{1}{2} λ ∥ w ∥^{2} & <mtext> (12) </mtext> \end{matrix}$

$\begin{matrix} \begin{matrix} <mstyle displaystyle="true" scriptlevel="0"> O b j </mstyle> & <mstyle displaystyle="true" scriptlevel="0"> = <munderover> \sum i = 1 n </munderover> [g_{i} f_{k} (x_{i}) + \frac{1}{2} h_{i} f_{k}^{2} (x_{i})] + γ T + \frac{1}{2} λ <munderover> \sum j = 1 T </munderover> w_{j}^{2} </mstyle> \end{matrix} & <mtext> (13) </mtext> \end{matrix}$

公式 $(12)$ 中 $γ$ 为树的深度， $T$ 为叶子节点个数， $λ$ 为惩罚项系数。 $∥ w ∥^{2}$ 为L2正则化项。公式 $(13)$ 为将惩罚函数带入后的目标函数。

下面将 $f_{k} (x_{i})$ 从对每一项输入数据的输出求和，转为对每一个叶子节点的输出求和。

$\begin{matrix} O b j = <munderover> \sum j = 1 T </munderover> [(<munder> \sum i \in I_{j} </munder> g_{i}) w_{j} + \frac{1}{2} (<munder> \sum i \in I_{j} </munder> h_{i} + λ) w_{j}^{2}] + γ T & <mtext> (14) </mtext> \end{matrix}$

公式 $(14)$ 中 $I_{j} = {i ∣ q (x_{i}) = j}$ 是被分到第 $j$ 个叶子节点中的 $x_{i}$ 的序号集合。

7. 寻找最佳分裂点

我们假设树的结构 $q (x_{i})$ 是确定的，即公式 $(13)$ 中， $γ$ 和 $T$ 两个参数是确定的， $I_{j}$ 也是确定的，剩下的自变量就只有 $w_{j}^{2}$ ，我们就得到了一个一元二次方程。

要使这个一元二次方程最小，我们就需要找到它的极值点。

首先考虑二次项系数的正负性。 $λ$ 是惩罚项系数，是非负的，而
$h_{i} = \partial_{<mover accent="true"> y^</mover> (k - 1)}^{2} l (y_{i}, {<mover accent="true">}^{y^</mover> (k - 1)})$ ，是损失函数的二阶导数。

我们参考《神经网络与深度学习》 ⁴ 中给出的常用损失函数。

$<mtext> Figure 8. Loss Function </mtext>$

XGBoost 常用的是平方损失，它的二阶导函数恒为正数。所以目标函数二次项系数也恒为正。

所以我们根据一元二次方程的性质，求解目标函数的最小值。

$\begin{matrix} w_{j}^{*} = - \frac{<munder> \sum i \in I_{j} </munder> g_{i}}{<munder> \sum i \in I_{j} </munder> h_{i} + λ} & <mtext> (15) </mtext> \end{matrix}$

带入公式 $(14)$ 可求得

$\begin{matrix} O b j (q) = - \frac{1}{2} <munderover> \sum j = 1 T </munderover> \frac{{(<munder> \sum i \in I_{j} </munder> g_{i})}^{2}}{<munder> \sum i \in I_{j} </munder> h_{i} + λ} + γ T & <mtext> (16) </mtext> \end{matrix}$

公式 $(16)$ 中 $q$ 为某一确定的树结构。 $O b j (q)$ 可以作为评分函数，用来计算树结构的得分。类似于决策树模型中的信息熵(Information Entropy)。

由于遍历所有的树结构是一个 $N P$ 问题，所以 XGBoost 采用了贪心算法来求得树结构的局部最优解。

假设 $I_{L}$ 和 $I_{R}$ 是分割后的左节点和右节点的 $x_{i}$ 的序号集合， $I = I_{L} ⋃ I_{R}$ ，那么每次分裂后 $O b j (q)$ 的减少值为：

$\begin{matrix} L_{s p l i t} = \frac{1}{2} [\frac{{(<munder> \sum i \in I_{L} </munder> g_{i})}^{2}}{<munder> \sum i \in I_{L} </munder> h_{i} + λ} + \frac{{(<munder> \sum i \in I_{R} </munder> g_{i})}^{2}}{<munder> \sum i \in I_{R} </munder> h_{i} + λ} - \frac{{(<munder> \sum i \in I </munder> g_{i})}^{2}}{<munder> \sum i \in I </munder> h_{i} + λ}] - γ & <mtext> (17) </mtext> \end{matrix}$