为什么在第一题里$\sigma^2$的设定是Scaler？

这是一个非常敏锐的问题！你的直觉是对的：描述误差结构的完整形式确实应该是一个矩阵，而不是一个标量。

之所以在这里 $\sigma^2$ 是一个标量，是因为这是标准线性回归（Ordinary Least Squares, OLS） 最强的假设之一。

让我为你拆解这背后的含义，以及“它什么时候会变成矩阵”。

1. 你的推断完全正确

“这意味着这个 linear regression 每一个 sample 都遵循完全一致的方差？”

是的，正是这个意思。

在图中的模型 $y \sim N_n(X\beta, \sigma^2 I_n)$ 里，我们要处理的是协方差矩阵 (Covariance Matrix) $\Sigma$。

$$ \Sigma = \text{Cov}(\epsilon) = \begin{bmatrix} \text{Var}(\epsilon_1) & \text{Cov}(\epsilon_1, \epsilon_2) & \cdots & \text{Cov}(\epsilon_1, \epsilon_n) \\ \text{Cov}(\epsilon_2, \epsilon_1) & \text{Var}(\epsilon_2) & \cdots & \text{Cov}(\epsilon_2, \epsilon_n) \\ \vdots & \vdots & \ddots & \vdots \\ \text{Cov}(\epsilon_n, \epsilon_1) & \text{Cov}(\epsilon_n, \epsilon_2) & \cdots & \text{Var}(\epsilon_n) \end{bmatrix} $$

图中的写法 $\Sigma = \sigma^2 I_n$ 实际上是对这个矩阵做了两个极其严格的假设：

对角线相等 (Homoscedasticity, 同方差性): 所有样本的方差 $\text{Var}(\epsilon_i)$ 都是同一个值 $\sigma^2$。也就是说，第1个样本的噪音程度和第100个样本是一样的。
非对角线为零 (No Autocorrelation, 无自相关): 不同样本之间没有关联，$\text{Cov}(\epsilon_i, \epsilon_j) = 0$。

所以矩阵变成了这样：

$$ \Sigma = \begin{bmatrix} \sigma^2 & 0 & \cdots & 0 \\ 0 & \sigma^2 & \cdots & 0 \\ \vdots & \vdots & \ddots & \vdots \\ 0 & 0 & \cdots & \sigma^2 \end{bmatrix} = \sigma^2 \begin{bmatrix} 1 & 0 & \cdots & 0 \\ 0 & 1 & \cdots & 0 \\ \vdots & \vdots & \ddots & \vdots \\ 0 & 0 & \cdots & 1 \end{bmatrix} = \sigma^2 I_n $$

这就是为什么它可以被提取出来作为一个标量。

2. 如果方差不一致会发生什么？

如果你的直觉生效了，即“每个样本的方差可能不同”，那么 $\sigma^2$ 就不能作为一个标量提出来乘在单位矩阵前面了。

这种情况在统计学中叫 异方差性 (Heteroscedasticity)。

此时，协方差矩阵 $\Sigma$ 会变成一个对角线上数值各不相同的矩阵（假设样本间依然独立）：

$$ \Sigma = \begin{bmatrix} \sigma_1^2 & 0 & \cdots & 0 \\ 0 & \sigma_2^2 & \cdots & 0 \\ \vdots & \vdots & \ddots & \vdots \\ 0 & 0 & \cdots & \sigma_n^2 \end{bmatrix} \neq \sigma^2 I_n $$

在这种情况下：

你不能把 $\Sigma$ 写成 $\sigma^2 I_n$。
你不能使用普通的最小二乘法 (OLS)，因为 OLS 假设所有数据点权重一样。
你需要使用 加权最小二乘法 (Weighted Least Squares, WLS) 或者 广义最小二乘法 (Generalized Least Squares, GLS)，给方差小的样本更高的权重。

3. 总结

你看到的推导过程是针对 最基础、最理想化 的线性回归情形（i.i.d. assumption —— 独立同分布假设）。

如果是矩阵： 那是广义的情形 ($\Sigma$)。
如果是标量： 那是特例 ($\sigma^2$)，它暗示了我们假设所有数据点的“噪音水平”是一致的。

Multivariate Testing 相关

看这里

为什么在第一题里$\sigma^2$的设定是Scaler？#

1. 你的推断完全正确#

2. 如果方差不一致会发生什么？#

3. 总结#

Multivariate Testing 相关#

为什么在第一题里$\sigma^2$的设定是Scaler？

1. 你的推断完全正确

2. 如果方差不一致会发生什么？

3. 总结

Multivariate Testing 相关