简单线性回归:基础
简单线性回归
什么是简单线性回归?根据《统计学习导论》一书,是指一种非常简单地根据单一预测变量 X 预测定量响应变量 Y 的方法。也就是 \[Y\approx\beta _{0}+\beta_{1}X\]
注意,本文不会专注于概念的公式和计算,我只想搞定以下目标:
- 如何进行简单线性回归
- 如何评估回归的拟合质量 - 参数的拟合质量 - 模型整体的拟合质量
- 预测变量和响应变量之间是否有关系?如何评估他们之间的关系
如何进行简单线性回归
我们都学过最小二乘法拟合一条直线,简单来说就是找到一条直线,使所有点到直线的距离最小。
让我们专业一点:
残差:第 i 个观测到的响应值到第 i 个用线性模型预测的响应值之间的差距。公式如下 \[e_i=y_i-\hat{y_{i}}\]
但很明显,这个公式算出来的结果有正有负,也就是预测可能偏大偏小,因此我们加个平方形成 \[e^2_i=(y_i-\hat{y_{i}})^2\]
自然,我们得到将所有观测到的响应点到预测直线的“距离”用残差平方和(RSS) 来评估 也就是说最小二乘法目标是使 RSS 最小。接下来,调包运算即可。
如何评估回归的拟合质量
参数的拟合质量
一般而言,我们假设 X 和 Y 之间的真实关系表示为 \(Y=f(X)+\varepsilon\) 。其中 \(f(X)\) 是我们具体要求的函数,在简单线性回归中为 \(Y\approx\beta _{0}+\beta_{1}X\) ,\(\varepsilon\) 是随机误差项。
如何评估参数的估计值偏离真实值的大小?
标准误差
我们通过计算标准误差(标准误SE) 来回答这个问题,它将告诉我们估计值偏离实际值的平均量。我注意到大家一提到标准误,似乎默认为均值的标准误也就是如下公式 \[SE(\hat{\mu})^2=\frac{\sigma^2 }{n}\]
然而,实际上所有参数都有自己的标准误,比如 \[SE(\hat{\beta_1} )^2=\frac{\sigma ^2}{\sum_{i=1}^{n}(x_i-\bar{x} )^2 }\]
\[SE(\hat{\beta_0} )^2=\sigma ^2[\frac{1}{n}+\frac{\bar{x}^2 }{\sum_{i=1}^{n}(x_i-\bar{x} )^2 } ]\]
同时,这些公式严格成立需要:每个观测值的误差项独立,并且具有相等的方差
模型整体的拟合质量
有两个量来评估:RSE和 \(R^2\) 统计量
RSE
RSE 是对随机误差项的标准偏差的估计。上面的标准误差是评估参数估计值离实际值的平均量,而 RSE 是模型预测值会偏离真正回归直线的平均量。(RSS 是残差平方和) \[RSE=\sqrt{\frac{RSS}{n-2}}\]
R^2 统计量
\(R^2\) 由两个统计量进行计算:TSS 和 RSS。RSS 已经知道了是指残差平方和,TSS 是什么呢?
\[TSS=\sum (y_i-\bar{y} )^2\]
TSS 可以认为是不假设任何模型,就使用 y 的平均值当作所有预测值所产生的偏差。
而 \(R^2\) 是如下定义的,可以理解为引入预测变量后能减少只使用 \(\bar{y}\) 进行预测的误差占原误差的比例。 \[R^2=\frac{TSS-RSS}{TSS}\]
预测变量和响应变量之间是否有关系?
我们可以对系数进行假设检验,也就是对以下零假设和备选假设进行检验
零假设 \(H_0\) :X 和 Y 之间没有关系( \(\beta_1=0\) )
备选假设 \(H_\alpha\) :X 和 Y 之间有一定的关系( \(\beta_1\ne0\) )
对于以上假设,我们先计算 t 统计量,进而计算 p 值 \[t=\frac{\hat{\beta_1}-0}{SE(\hat{\beta_1})}\]
t 统计量衡量了 \(\hat{\beta_1}\) 偏离 0 的标准偏差。通过查表或直接调包计算出 t 统计量对应的 p 值。
当 p 值小于 5% 或 1% 时,可以推测预测变量和响应变量之间存在关联,也就是拒绝零假设。