前言

本文介绍了如何用python进行回归分析

一、简单线性回归

直线回归分析是研究两变量(自变量和因变量)之间的依存关系及其关系的具体方程的形式。分析中所形成的这种关系式称为回归模型,其中以一条直线方程表明的两个变量的依存关系的模型叫一元线性回归模型。

二、多元线性回归

一元线性回归模型研究的是一个因变量与一个自变量之间呈直线趋势的数量关系。在实际问题中,常会遇到一个自变量与多个因变量数量关系的问题,这就需要我们建立多元线性回归模型。

三、对波士顿房价数据集进行多元线性回归分析

1、导入库

代码如下:

import numpy as np
import pandas as pd
from sklearn.datasets import load_boston

2.读入数据

代码如下:

# 读取网络数据
boston = load_boston()
# 数据包含14个字段,boston.data是前13个字段数据,boston.target是第13个字段'medv'的数据
col = ['crim','zn','indus','chas','nox','rm','age','dis','rad','tax','ptratio','b','lstat']
bostondf = pd.DataFrame(boston.data,columns=col)
bostondf['medv']=boston.target
bostondf.head()


 3、建立回归模型

#多元回归分析
import statsmodels.formula.api as smf
mod = smf.ols(formula='medv~crim+zn+indus+chas+nox+rm+age+dis+rad+tax+ptratio+b+lstat',data=bostondf)
res = mod.fit()
print(res.summary())

 从回归结果可以看出回归方程的可决系数是0.741,调整可决系数是0.734,F检验的P值远小于0.05,可以认为该回归方程的线性关系是显著的。对方程的每个自变量进行t检验,发现Indus和age两个自变量P值大于0.05,即这两个变量没有通过检验,他们与因变量的相关性较弱。

4、剔除剔除相关性较低的两个变量再进行回归分析

mod2 = smf.ols(formula='medv~crim+zn+chas+nox+rm+dis+rad+tax+ptratio+b+lstat',data=bostondf)
res2 = mod2.fit()
print(res2.summary())

可以看出剔除上述两个自变量之后所有变量都通过了检验 。

Logo

为开发者提供学习成长、分享交流、生态实践、资源工具等服务,帮助开发者快速成长。

更多推荐