RandomForest中的包外误差估计out-of-bag (oob) error estimate

1. 引入从RandomForest的鼻祖Breiman的comments（参考1）中，可以看到他说过：对于RandomForest的validation，没有必要像其他模型一样做cross-validation了，可以直接用RandomForest在内部就提供了out-of-bag (oob) error estimate，用这种方法就可以看出RF的训练效果了。那我们该怎么理解out-of-ba

ybdesire

13856人浏览 · 2021-09-18 23:04:31

ybdesire · 2021-09-18 23:04:31 发布

1. 引入

从RandomForest的鼻祖Breiman的comments（参考1）中，可以看到他说过：对于RandomForest的validation，没有必要像其他模型一样做cross-validation了，可以直接用RandomForest在内部就提供了out-of-bag (oob) error estimate，用这种方法就可以看出RF的训练效果了。

那我们该怎么理解out-of-bag (oob) error estimate呢？

2. 原理：oob error estimate

首先解释几个概念

bootstrap sampling

bootstrap sampling是自主采样法，指的是有放回的采样。这种采样方式，会导致约有36%的样本永远不会被采样到。

具体计算过程：假设有m个样本，有放回的采样，每次被采样到的概率是(1/m),每次不被采样到的概率是(1-1/m)；则(1-1/m)的n次方，当n足够大是，极限为1/e（约等于36%）。

Bagging

Bagging是并行集成学习方法最著名的代表，他是基于bootstrap sampling做的有放回抽样，多次抽样后组成多组训练集，来训练多个模型。

RandomForest就是基于Bagging做了一个扩展：随机选择属性（特征）。

out-of-bag (oob) error

out-of-bag (oob) error是 “包外误差”的意思。

它指的是，我们在从x_data中进行多次有放回的采样，能构造出多个训练集。根据上面1中bootstrap sampling的特点，我们可以知道，在训练RF的过程中，一定会有约36%的样本永远不会被采样到。

注意，这里说的“约36%的样本永远不会被采样到”，并不是针对第k棵树来说的，是针对所有树来说，36%的样本永远不会在任何一棵树的训练集中出现过。

那这36%的样本，就是out-of-bag (oob) data，包外数据。

用这个包外数据来做evaluation，就相当于用测试集来做evaluation。所以RF不需要再用测试集来做evaluation了。

3. 编程：oob error estimate

上面解释清楚了oob error estimate的原理，这里给一段示例代码来说明他的用法。

from sklearn.datasets import load_iris
from sklearn.ensemble import RandomForestClassifier
from sklearn.datasets import make_classification
# step-01: get data
data = load_iris()
x_data=data.data
y_data=data.target
# step-02: train rf
clf = RandomForestClassifier(random_state=0, oob_score=True)
clf.fit(x_data,y_data)
# step-03: oob error estimate
print(clf.oob_score_)# 0.9333333333333333