一文详解xgb参数（收藏版）

一般做机器学习的小伙伴，应该用xgb比较多点，因为它比较透明易懂，且在sklearn库里的xgb损失函数是泰勒二阶展开的，而GBDT的损失函数只是一阶，从精准性来说用xgb模型会更好，前提是你也是用python的。都说了解一个模型原理的时候，了解它的参数是必备的。下面我们来说说xgb都有哪些参数，以及这些参数的作用等等。一、通用版参数1、 booster [default= gbtree ]用于选

xiaoshu_yilian

12663人浏览 · 2021-04-09 18:16:34

xiaoshu_yilian · 2021-04-09 18:16:34 发布

一般做机器学习的小伙伴，应该用xgb比较多点，因为它比较透明易懂，且在sklearn库里的xgb损失函数是泰勒二阶展开的，而GBDT的损失函数只是一阶，从精准性来说用xgb模型会更好，前提是你也是用python的。

都说了解一个模型原理的时候，了解它的参数是必备的。下面我们来说说xgb都有哪些参数，以及这些参数的作用等等。

一、通用版参数

1、 booster [default= gbtree ]
用于选择每次迭代的模型。一般，gbtree和dart是用于树模型的，而gblinear更适用于线性模型，gbtree的效果也远胜于gblinear。

2、nthread
用于选择分几个进程来训练模型，一般默认系统的核数（4）
当我们上面的booster选择了树模型了之后，要针对树模型进行调参。那么下面介绍下树模型的参数。

二、树模型参数

1、eta [default=0.3, 别名: learning_rate]
学习速率，取值范围：[0:1]。用于控制树的权重，xgb模型在进行完每一轮迭代之后，会将叶子节点的分数乘上该系数，以便于削弱各棵树的影响，避免过拟合。一般对eta调优时会结合迭代次数进行考虑。

2、gamma [default=0, 别名: min_split_loss]
用于限制在叶子节点上进一步分裂所需的最小损失函数下降值。分裂节点时，损失函数减小值只有大于等于gamma节点才分裂。gamma越大，算法越保守。取值范围为[0,]。

3、max_depth [default=6]
树的最大深度。一般取值范围为[3,10]，随着深度的升高，模型就越复杂，则就容易发生过拟合。

4、min_child_weight[default=1]
分裂的叶子节点中样本权重和的最小值。如果新分裂的节点的样本权重和小于min_child_weight则停止分裂。增大min_child_weight可以减少过拟合。取值范围为：[0,]。

5、subsample [default=1]
用于每次分裂一颗树时随机样本（行）采样的比例。取值范围为：（0,1],但是一般取值[0.5,1],当取值为0.5时，较取值1时更能阻止过拟合的发生。

6、colsample_bytree[default=1]
用于每次分裂一颗树时随机样本（列）采样的比例。取值范围为：（0,1]，一般取值为[0.5,1]。

7、lambda [default=1, 别名: reg_lambda]
权重的L2正则化项。增大lambda将使模型可以缓解模型的过拟合。因为加入了惩罚项L2之后，参数公式是w=(X^T XλI)^(-1) X^T Y。可以看出来加入L2正则项使得矩阵正定，将各个特征的贡献都均匀了。

8、alpha [default=0, 别名: reg_alpha]
权重的L1正则化项。增大该值将使模型更保守。一般我们做特征选择的时候会用L1正则项。

9、tree_method [default=auto]
这是xgb框架自带的训练方法。
可选参数为：[auto, exact, approx, hist, gpu_hist]
这里我大概讲讲每个参数值的意思：
Auto: 模型会自己判断输入的训练样本的大小去更新该参数，比如数据集较小的时候会选择“exact”模式。当数据集较大时，会更新为“approx.”模式。”exact”其实是一种较贪婪的分裂模式，它会遍历所有的节点去进行选择。当数据及非常大的时候可以选择”hist“。

10、scale_pos_weight [default=1]
用于调节样本不均衡的情况。一般取值可以为：负样本数/正样本数。
可能有小伙伴不知道正负样本是什么。一般模型里偏少数的部分会认为是正样本如逾期客户医学上的发病的病人用户响应模型中的实际响应客户。

三、学习任务参数

1、 objective
[default=reg:squarederror]
很多文章说这个参数的默认值是：reg:linear
。（我这里参照的官方文档）
根据任务场景来选择的目标。可选参数：【binary:logistic，reg:logistic，multi:softmax】
当我们是二分类任务时，一般选：binary:logistic。

2、 eval_metric [default according to objective]
用于选择需要最小化的损失函数。可选参数：【rmse，logloss，auc】
下面详细讲讲各个参数值的含义。
rmse（Root Mean Squared Error称均方根误差）=√(1/n ∑_(i=1)^n▒〖(y_i-y ̂_i)〗^2 )
logloss(negative log-likelihood负对数似然函数，也称Cross Entropy Loss Function 交叉熵损失函数)= 1/n ∑_(i=1)^n▒〖-[y_i log⁡〖(p_i )+（1-y_i）log⁡(1-p_i)〗〗]

其中，yi表示样本i的实际label,正样本为1，负样本为0。所以实际使用的时候，正类只计算方括号的前半部分，负类计算方括号里的后半部分。（Log实际上是ln）。下面举个例子说说sklearn里如何计算交叉熵损失函数的。

from sklearn.metrics import log_loss
#样本实际标签label
y_true = [0, 0, 1, 1]
#样本预测的概率，前面数值表示负类概率，后面数值表示正类概率
y_pred = [[.9, .1], [.8, .2], [.3, .7], [.01, .99]]
l=log_loss(y_true, y_pred)
print(l) #0.1738