随机森林算法实例

随机森林大致过程如下：1）从样本集中有放回随机采样选出 n 个样本；2）从所有特征中随机选择 k 个特征，对选出的样本利用这些特征建立决策树（一般是CART，也可是别的或混合使用）；3）重复以上两步 m 次，即生成 m 棵决策树，形成随机森林；4）对于新数据，经过每棵树决策，最后投票确认分到哪一类。#读取数据import pandas as pddata = pd.read_csv('/data/

LZ_夕阳之后的黑夜

4302人浏览 · 2022-05-30 19:54:34

LZ_夕阳之后的黑夜 · 2022-05-30 19:54:34 发布

随机森林大致过程如下：

1）从样本集中有放回随机采样选出 n 个样本；

2）从所有特征中随机选择 k 个特征，对选出的样本利用这些特征建立决策树（一般是CART，也可是别的或混合使用）；

3）重复以上两步 m 次，即生成 m 棵决策树，形成随机森林；

4）对于新数据，经过每棵树决策，最后投票确认分到哪一类。

#读取数据
import pandas as pd
data = pd.read_csv('/data/train.csv')
data.head()

#提取特征值和标签值
X=data.iloc[:,:-1].values#提取特征值
y=data.iloc[:,-1].values#提取标签值

#划分训练集与测试集，参数test_size设为0.2，random_state设为700
from sklearn.model_selection  import train_test_split
x_train,x_test,y_train,y_test = train_test_split(X,y,test_size=0.2,random_state=700)

#建立模型，并训练模型
import warnings
warnings.filterwarnings('ignore')
from sklearn.ensemble import RandomForestClassifier#导入分类模块
rf = RandomForestClassifier(n_estimators=10)
rf.fit(x_train,y_train)

#用测试数据集进行预测
ypredict=rf.predict(x_test)

#评估预测的准确率
from sklearn.metrics import accuracy_score#导入评估准确率的模块
accuracy = accuracy_score(y_test, ypredict)
print("Accuracy: %.2f%%" % (accuracy * 100.0))