简单线性回归：基础

简单线性回归

什么是简单线性回归？根据《统计学习导论》一书，是指一种非常简单地根据单一预测变量 X 预测定量响应变量 Y 的方法。也就是 \[Y\approx\beta _{0}+\beta_{1}X\]

注意，本文不会专注于概念的公式和计算，我只想搞定以下目标：

我们都学过最小二乘法拟合一条直线，简单来说就是找到一条直线，使所有点到直线的距离最小。

让我们专业一点：

残差：第 i 个观测到的响应值到第 i 个用线性模型预测的响应值之间的差距。公式如下 \[e_i=y_i-\hat{y_{i}}\]

但很明显，这个公式算出来的结果有正有负，也就是预测可能偏大偏小，因此我们加个平方形成 \[e^2_i=(y_i-\hat{y_{i}})^2\]

自然，我们得到将所有观测到的响应点到预测直线的“距离”用残差平方和（RSS） 来评估也就是说最小二乘法目标是使 RSS 最小。接下来，调包运算即可。

一般而言，我们假设 X 和 Y 之间的真实关系表示为 \(Y=f(X)+\varepsilon\) 。其中 \(f(X)\) 是我们具体要求的函数，在简单线性回归中为 \(Y\approx\beta _{0}+\beta_{1}X\) ，\(\varepsilon\) 是随机误差项。

如何评估参数的估计值偏离真实值的大小？

我们通过计算标准误差（标准误SE） 来回答这个问题，它将告诉我们估计值偏离实际值的平均量。我注意到大家一提到标准误，似乎默认为均值的标准误也就是如下公式 \[SE(\hat{\mu})^2=\frac{\sigma^2 }{n}\]

然而，实际上所有参数都有自己的标准误，比如 \[SE(\hat{\beta_1} )^2=\frac{\sigma ^2}{\sum_{i=1}^{n}(x_i-\bar{x} )^2 }\]

\[SE(\hat{\beta_0} )^2=\sigma ^2[\frac{1}{n}+\frac{\bar{x}^2 }{\sum_{i=1}^{n}(x_i-\bar{x} )^2 } ]\]

同时，这些公式严格成立需要：每个观测值的误差项独立，并且具有相等的方差

有两个量来评估：RSE和 \(R^2\) 统计量

RSE 是对随机误差项的标准偏差的估计。上面的标准误差是评估参数估计值离实际值的平均量，而 RSE 是模型预测值会偏离真正回归直线的平均量。(RSS 是残差平方和) \[RSE=\sqrt{\frac{RSS}{n-2}}\]

\(R^2\) 由两个统计量进行计算：TSS 和 RSS。RSS 已经知道了是指残差平方和，TSS 是什么呢？

\[TSS=\sum (y_i-\bar{y} )^2\]

TSS 可以认为是不假设任何模型，就使用 y 的平均值当作所有预测值所产生的偏差。

而 \(R^2\) 是如下定义的，可以理解为引入预测变量后能减少只使用 \(\bar{y}\) 进行预测的误差占原误差的比例。 \[R^2=\frac{TSS-RSS}{TSS}\]

我们可以对系数进行假设检验，也就是对以下零假设和备选假设进行检验

零假设 \(H_0\) ：X 和 Y 之间没有关系（ \(\beta_1=0\) ）

备选假设 \(H_\alpha\) ：X 和 Y 之间有一定的关系（ \(\beta_1\ne0\) ）

对于以上假设，我们先计算 t 统计量，进而计算 p 值 \[t=\frac{\hat{\beta_1}-0}{SE(\hat{\beta_1})}\]

t 统计量衡量了 \(\hat{\beta_1}\) 偏离 0 的标准偏差。通过查表或直接调包计算出 t 统计量对应的 p 值。

当 p 值小于 5% 或 1% 时，可以推测预测变量和响应变量之间存在关联，也就是拒绝零假设。

#统计学习

简单线性回归：基础

https://blog.hydrogenroom.icu/post/7fda15c2.html

作者

Hydrogen

发布于

2024年4月19日

许可协议