随机森林大致过程如下:

1)从样本集中有放回随机采样选出 n 个样本;

2)从所有特征中随机选择 k 个特征,对选出的样本利用这些特征建立决策树(一般是CART,也可是别的或混合使用);

3)重复以上两步 m 次,即生成 m 棵决策树,形成随机森林;

4)对于新数据,经过每棵树决策,最后投票确认分到哪一类。

#读取数据
import pandas as pd
data = pd.read_csv('/data/train.csv')
data.head()

#提取特征值和标签值
X=data.iloc[:,:-1].values#提取特征值
y=data.iloc[:,-1].values#提取标签值

#划分训练集与测试集,参数test_size设为0.2,random_state设为700
from sklearn.model_selection  import train_test_split
x_train,x_test,y_train,y_test = train_test_split(X,y,test_size=0.2,random_state=700)

#建立模型,并训练模型
import warnings
warnings.filterwarnings('ignore')
from sklearn.ensemble import RandomForestClassifier#导入分类模块
rf = RandomForestClassifier(n_estimators=10)
rf.fit(x_train,y_train)

#用测试数据集进行预测
ypredict=rf.predict(x_test)

#评估预测的准确率
from sklearn.metrics import accuracy_score#导入评估准确率的模块
accuracy = accuracy_score(y_test, ypredict)
print("Accuracy: %.2f%%" % (accuracy * 100.0))

Logo

为开发者提供学习成长、分享交流、生态实践、资源工具等服务,帮助开发者快速成长。

更多推荐