简单线性回归:基础

简单线性回归

什么是简单线性回归?根据《统计学习导论》一书,是指一种非常简单地根据单一预测变量 X 预测定量响应变量 Y 的方法。也就是 \[Y\approx\beta _{0}+\beta_{1}X\]

注意,本文不会专注于概念的公式和计算,我只想搞定以下目标:

  1. 如何进行简单线性回归
  2. 如何评估回归的拟合质量    - 参数的拟合质量    - 模型整体的拟合质量
  3. 预测变量和响应变量之间是否有关系?如何评估他们之间的关系
整体思维导图

如何进行简单线性回归

我们都学过最小二乘法拟合一条直线,简单来说就是找到一条直线,使所有点到直线的距离最小。

让我们专业一点:

残差:第 i 个观测到的响应值到第 i 个用线性模型预测的响应值之间的差距。公式如下 \[e_i=y_i-\hat{y_{i}}\]

但很明显,这个公式算出来的结果有正有负,也就是预测可能偏大偏小,因此我们加个平方形成 \[e^2_i=(y_i-\hat{y_{i}})^2\]

自然,我们得到将所有观测到的响应点到预测直线的“距离”用残差平方和(RSS) 来评估 也就是说最小二乘法目标是使 RSS 最小。接下来,调包运算即可。

如何评估回归的拟合质量

参数的拟合质量

一般而言,我们假设 X 和 Y 之间的真实关系表示为 \(Y=f(X)+\varepsilon\) 。其中 \(f(X)\) 是我们具体要求的函数,在简单线性回归中为 \(Y\approx\beta _{0}+\beta_{1}X\)\(\varepsilon\) 是随机误差项。

如何评估参数的估计值偏离真实值的大小?

标准误差

我们通过计算标准误差(标准误SE) 来回答这个问题,它将告诉我们估计值偏离实际值的平均量。我注意到大家一提到标准误,似乎默认为均值的标准误也就是如下公式 \[SE(\hat{\mu})^2=\frac{\sigma^2 }{n}\]

然而,实际上所有参数都有自己的标准误,比如 \[SE(\hat{\beta_1}  )^2=\frac{\sigma ^2}{\sum_{i=1}^{n}(x_i-\bar{x} )^2 }\]

\[SE(\hat{\beta_0}  )^2=\sigma ^2[\frac{1}{n}+\frac{\bar{x}^2 }{\sum_{i=1}^{n}(x_i-\bar{x} )^2 } ]\]

同时,这些公式严格成立需要:每个观测值的误差项独立,并且具有相等的方差

模型整体的拟合质量

有两个量来评估:RSE和 \(R^2\) 统计量

RSE

RSE 是对随机误差项的标准偏差的估计。上面的标准误差是评估参数估计值离实际值的平均量,而 RSE 是模型预测值会偏离真正回归直线的平均量。(RSS 是残差平方和) \[RSE=\sqrt{\frac{RSS}{n-2}}\]

R^2 统计量

\(R^2\) 由两个统计量进行计算:TSS 和 RSS。RSS 已经知道了是指残差平方和,TSS 是什么呢?

\[TSS=\sum (y_i-\bar{y} )^2\]

TSS 可以认为是不假设任何模型,就使用 y 的平均值当作所有预测值所产生的偏差。

\(R^2\) 是如下定义的,可以理解为引入预测变量后能减少只使用 \(\bar{y}\) 进行预测的误差占原误差的比例。 \[R^2=\frac{TSS-RSS}{TSS}\]

预测变量和响应变量之间是否有关系?

我们可以对系数进行假设检验,也就是对以下零假设备选假设进行检验

零假设 \(H_0\) :X 和 Y 之间没有关系( \(\beta_1=0\)

备选假设 \(H_\alpha\) :X 和 Y 之间有一定的关系( \(\beta_1\ne0\)

对于以上假设,我们先计算 t 统计量,进而计算 p 值 \[t=\frac{\hat{\beta_1}-0}{SE(\hat{\beta_1})}\]

t 统计量衡量了 \(\hat{\beta_1}\) 偏离 0 的标准偏差。通过查表或直接调包计算出 t 统计量对应的 p 值。

当 p 值小于 5% 或 1% 时,可以推测预测变量和响应变量之间存在关联,也就是拒绝零假设。


简单线性回归:基础
https://blog.hydrogenroom.icu/post/7fda15c2.html
作者
Hydrogen
发布于
2024年4月19日
许可协议