随机森林算法实例
随机森林大致过程如下:1)从样本集中有放回随机采样选出 n 个样本;2)从所有特征中随机选择 k 个特征,对选出的样本利用这些特征建立决策树(一般是CART,也可是别的或混合使用);3)重复以上两步 m 次,即生成 m 棵决策树,形成随机森林;4)对于新数据,经过每棵树决策,最后投票确认分到哪一类。#读取数据import pandas as pddata = pd.read_csv('/data/
·
随机森林大致过程如下:
1)从样本集中有放回随机采样选出 n 个样本;
2)从所有特征中随机选择 k 个特征,对选出的样本利用这些特征建立决策树(一般是CART,也可是别的或混合使用);
3)重复以上两步 m 次,即生成 m 棵决策树,形成随机森林;
4)对于新数据,经过每棵树决策,最后投票确认分到哪一类。
#读取数据
import pandas as pd
data = pd.read_csv('/data/train.csv')
data.head()
#提取特征值和标签值
X=data.iloc[:,:-1].values#提取特征值
y=data.iloc[:,-1].values#提取标签值
#划分训练集与测试集,参数test_size设为0.2,random_state设为700
from sklearn.model_selection import train_test_split
x_train,x_test,y_train,y_test = train_test_split(X,y,test_size=0.2,random_state=700)
#建立模型,并训练模型
import warnings
warnings.filterwarnings('ignore')
from sklearn.ensemble import RandomForestClassifier#导入分类模块
rf = RandomForestClassifier(n_estimators=10)
rf.fit(x_train,y_train)
#用测试数据集进行预测
ypredict=rf.predict(x_test)
#评估预测的准确率
from sklearn.metrics import accuracy_score#导入评估准确率的模块
accuracy = accuracy_score(y_test, ypredict)
print("Accuracy: %.2f%%" % (accuracy * 100.0))
更多推荐
已为社区贡献4条内容
所有评论(0)