为什么在第一题里$\sigma^2$的设定是Scaler?

这是一个非常敏锐的问题!你的直觉是对的:描述误差结构的完整形式确实应该是一个矩阵,而不是一个标量。

之所以在这里 $\sigma^2$ 是一个标量,是因为这是标准线性回归(Ordinary Least Squares, OLS) 最强的假设之一。

让我为你拆解这背后的含义,以及“它什么时候会变成矩阵”。

1. 你的推断完全正确

“这意味着这个 linear regression 每一个 sample 都遵循完全一致的方差?”

是的,正是这个意思。

在图中的模型 $y \sim N_n(X\beta, \sigma^2 I_n)$ 里,我们要处理的是协方差矩阵 (Covariance Matrix) $\Sigma$。

$$ \Sigma = \text{Cov}(\epsilon) = \begin{bmatrix} \text{Var}(\epsilon_1) & \text{Cov}(\epsilon_1, \epsilon_2) & \cdots & \text{Cov}(\epsilon_1, \epsilon_n) \\ \text{Cov}(\epsilon_2, \epsilon_1) & \text{Var}(\epsilon_2) & \cdots & \text{Cov}(\epsilon_2, \epsilon_n) \\ \vdots & \vdots & \ddots & \vdots \\ \text{Cov}(\epsilon_n, \epsilon_1) & \text{Cov}(\epsilon_n, \epsilon_2) & \cdots & \text{Var}(\epsilon_n) \end{bmatrix} $$

图中的写法 $\Sigma = \sigma^2 I_n$ 实际上是对这个矩阵做了两个极其严格的假设:

  1. 对角线相等 (Homoscedasticity, 同方差性): 所有样本的方差 $\text{Var}(\epsilon_i)$ 都是同一个值 $\sigma^2$。也就是说,第1个样本的噪音程度和第100个样本是一样的。
  2. 非对角线为零 (No Autocorrelation, 无自相关): 不同样本之间没有关联,$\text{Cov}(\epsilon_i, \epsilon_j) = 0$。

所以矩阵变成了这样:

$$ \Sigma = \begin{bmatrix} \sigma^2 & 0 & \cdots & 0 \\ 0 & \sigma^2 & \cdots & 0 \\ \vdots & \vdots & \ddots & \vdots \\ 0 & 0 & \cdots & \sigma^2 \end{bmatrix} = \sigma^2 \begin{bmatrix} 1 & 0 & \cdots & 0 \\ 0 & 1 & \cdots & 0 \\ \vdots & \vdots & \ddots & \vdots \\ 0 & 0 & \cdots & 1 \end{bmatrix} = \sigma^2 I_n $$

这就是为什么它可以被提取出来作为一个标量。


2. 如果方差不一致会发生什么?

如果你的直觉生效了,即“每个样本的方差可能不同”,那么 $\sigma^2$ 就不能作为一个标量提出来乘在单位矩阵前面了。

这种情况在统计学中叫 异方差性 (Heteroscedasticity)

此时,协方差矩阵 $\Sigma$ 会变成一个对角线上数值各不相同的矩阵(假设样本间依然独立):

$$ \Sigma = \begin{bmatrix} \sigma_1^2 & 0 & \cdots & 0 \\ 0 & \sigma_2^2 & \cdots & 0 \\ \vdots & \vdots & \ddots & \vdots \\ 0 & 0 & \cdots & \sigma_n^2 \end{bmatrix} \neq \sigma^2 I_n $$

在这种情况下:

  1. 你不能把 $\Sigma$ 写成 $\sigma^2 I_n$。
  2. 你不能使用普通的最小二乘法 (OLS),因为 OLS 假设所有数据点权重一样。
  3. 你需要使用 加权最小二乘法 (Weighted Least Squares, WLS) 或者 广义最小二乘法 (Generalized Least Squares, GLS),给方差小的样本更高的权重。

3. 总结

你看到的推导过程是针对 最基础、最理想化 的线性回归情形(i.i.d. assumption —— 独立同分布假设)。

  • 如果是矩阵: 那是广义的情形 ($\Sigma$)。
  • 如果是标量: 那是特例 ($\sigma^2$),它暗示了我们假设所有数据点的“噪音水平”是一致的。

Multivariate Testing 相关

看这里