线性回归 是一种常用的统计方法,我们可以用它来理解两个变量 x 和 y 之间的关系。但是,在进行线性回归之前,首先要确保满足四个假设:

1.线性关系:自变量x和因变量y之间存在线性关系。

2. 独立性: 残差是独立的。特别是,时间序列数据中的连续残差之间没有相关性。

3. 同方差性: 残差在 x 的每个水平上都有恒定的方差。

4. 正态性: 模型的残差呈正态分布。

如果违反了这些假设中的一个或多个,那么我们的线性回归的结果可能不可靠甚至具有误导性。

在这篇文章中,我们对每个假设进行了解释,如何确定是否满足假设,以及如果违反假设该怎么办。

假设 1:线性关系

解释

线性回归的第一个假设是自变量 x 和因变量 y 之间存在线性关系。

如何确定是否满足此假设

检测是否满足此假设的最简单方法是创建 x 与 y 的散点图。这使您可以直观地查看两个变量之间是否存在线性关系。如果图中的点看起来可能沿着一条直线,则两个变量之间存在某种类型的线性关系,并且满足此假设。

例如,下图中的点看起来像是大致落在一条直线上,这表明 x 和 y 之间存在线性关系:

但是,下图中的 x 和 y 之间似乎没有线性关系:

在这个图中,x 和 y 之间似乎有明显的关系, 但不是线性关系

如果违反此假设该怎么办

如果您创建 x 和 y 值的散点图并发现 两个变量之间没有 线性关系,那么您有几个选择:

1.对自变量和/或因变量应用非线性变换。常见示例包括取对数、平方根或自变量和/或因变量的倒数。

2. 向模型中添加另一个自变量。例如,如果 x 与 y 的图具有抛物线形状,那么将 X^2添加 为模型中的附加自变量可能是有意义的。

假设 2:独立

解释

线性回归的下一个假设是残差是独立的。这在处理时间序列数据时最重要。理想情况下,我们不希望连续残差之间存在模式。例如,残差不应该随着时间的推移稳步增长。

如何确定是否满足此假设

测试是否满足此假设的最简单方法是查看残差时间序列图,这是残差与时间的关系图。理想情况下,大多数残差自相关应落在零附近的 95% 置信区间内,这些区间位于n 的平方根上的大约 +/- 2 处,其中n是样本大小。您还可以使用Durbin-Watson test检验是否满足此假设。

如果违反此假设该怎么办

根据违反此假设的方式的性质,您有几种选择:

  • 对于正序列相关,请考虑向模型添加因变量和/或自变量的滞后。
  • 对于负序列相关,请检查以确保您的任何变量都没有 过度差异
  • 对于季节性相关性,请考虑向模型添加季节性虚拟变量。

假设 3:同方差

解释

线性回归的下一个假设是残差在 x 的每个水平上都具有恒定的方差。这被称为 同方差性。如果不是这种情况,则称残差存在异方差性

当回归分析中存在异方差时,分析的结果变得难以信任。具体来说,异方差性增加了回归系数估计的方差,但回归模型并没有注意到这一点。这使得回归模型更有可能声明模型中的项具有统计显着性,而实际上并非如此。

如何确定是否满足此假设

检测异方差的最简单方法是创建 拟合值与残差图

将回归线拟合到一组数据后,您就可以创建一个散点图,显示模型的拟合值与这些拟合值的残差。下面的散点图显示了典型的 拟合值与残差图 ,其中存在异方差。

请注意残差如何随着拟合值变大而变得更加分散。这种“圆锥”形状是异方差的典型标志:

如果违反此假设该怎么办

解决异方差性的常用方法有以下三种:

1. 变换因变量。 一种常见的转换是简单地取因变量的对数。例如,如果我们使用人口规模(自变量)来预测一个城市的花店数量(因变量),我们可能会尝试使用人口规模来预测一个城市花店数量的对数。使用因变量的对数,而不是原始因变量,通常会导致异方差消失。

2. 重新定义因变量。 重新定义因变量的一种常见方法是使用 rate,而不是原始值。例如,我们可以使用人口规模来预测人均花店的数量,而不是使用人口规模来预测一个城市的花店数量。在大多数情况下,这减少了较大人群中自然发生的可变性,因为我们衡量的是每人的花店数量,而不是花店的绝对数量。

3. 使用加权回归。 修复异方差的另一种方法是使用加权回归。这种类型的回归根据每个数据点的拟合值的方差为每个数据点分配一个权重。从本质上讲,这为具有较高方差的数据点提供了较小的权重,从而缩小了它们的残差平方。当使用适当的权重时,这可以消除异方差问题。

假设 4:正态性

解释

线性回归的下一个假设是残差呈正态分布。

如何确定是否满足此假设

有两种常用方法可以检查是否满足此假设:

1.使用Q-Q 图直观地检查假设。

Q-Q 图是分位数-分位数图的缩写,是一种可以用来确定模型残差是否服从正态分布的图。如果图中的点大致形成一条直线对角线,则满足正态性假设。

以下 Q-Q 图显示了一个大致服从正态分布的残差示例:

但是,下面的 Q-Q 图显示了残差明显偏离直线对角线时的示例,这表明它们不服从正态分布:

2.您还可以使用正式的统计检验(如 Shapiro-Wilk、Kolmogorov-Smironov、Jarque-Barre 或 D'Agostino-Pearson)来检查正态性假设。但是,请记住,这些检验对大样本量很敏感——也就是说,当您的样本量很大时,它们通常会得出残差不正常的结论。这就是为什么只使用像 Q-Q 图这样的图形方法来检查这个假设通常更容易。

如果违反此假设该怎么办

如果违反了正态性假设,您有几个选择:

  • 首先,验证任何异常值都没有对分布产生巨大影响。如果存在异常值,请确保它们是真实值并且它们不是数据输入错误。
  • 接下来,您可以对自变量和/或因变量应用非线性变换。常见示例包括取对数、平方根或自变量和/或因变量的倒数。
The Four Assumptions of Linear Regression
https://www.statology.org/linear-regression-assumptions/

Logo

为开发者提供学习成长、分享交流、生态实践、资源工具等服务,帮助开发者快速成长。

更多推荐