矩阵转置操作相关

推导完全是基于矩阵转置 (Transpose) 的基本运算律完成的。任何实数矩阵 $X$,构成的 $P = XX^\top$ 都是对称矩阵。

推导目标

我们要证明 $P^\top = P$,其中 $P = XX^\top$。

详细步骤

$$ P^\top = (XX^\top)^\top $$

第一步:应用转置的乘积法则 (Reverse Order Law) 矩阵代数中有一个非常核心的规则:两个矩阵相乘的转置,等于它们分别转置后,反向相乘。 公式为:

$$ (AB)^\top = B^\top A^\top $$

我们将这个规则应用到我们的式子中:

  • 令 $A = X$
  • 令 $B = X^\top$

那么 $(X \cdot X^\top)^\top$ 就变成了 $B$ 的转置乘以 $A$ 的转置:

$$ (XX^\top)^\top = (X^\top)^\top X^\top $$

第二步:应用转置的对合律 (Involution Law) 这一步处理的是 $(X^\top)^\top$。 规则很简单:一个矩阵转置两次,就回到了它自己。 公式为:

$$ (M^\top)^\top = M $$

应用到刚才的结果中:

$$ (X^\top)^\top X^\top = X X^\top $$

第三步:回到定义 我们现在的运算结果是 $XX^\top$。 根据最初的定义,我们知道 $P = XX^\top$。 所以:

$$ XX^\top = P $$

总结

这就是为什么图片中写道:

$$ P^\top = (XX^\top)^\top = (X^\top)^\top X^\top = XX^\top = P $$

这证明了 $P$ 是一个对称矩阵 (Symmetric Matrix)

补充说明:关于“列正交”的使用

既然你提到了 $X$ 是列正交的,值得注意的是,这个性质($X^\top X = I_p$)在下面起到了关键作用:

$$ P^2 = X(\underbrace{X^\top X}_{I_p})X^\top = X I_p X^\top = XX^\top = P $$

而在我们刚才推导的第二个公式(对称性)中,即使 $X$ 不是列正交的,$XX^\top$ 依然永远是对称的。

这个解释清楚了吗?如果需要针对第一行的“幂等性”做更详细的展开,随时告诉我。

线性回归的Response Variable分布

核心概念: 线性回归模型定义为 $y = X\beta + \epsilon$。这里 $y$ 是随机变量 $\epsilon$ 的线性变换(加上一个常数向量 $X\beta$)。

推导步骤:

  1. 期望 (Mean):

    $$ \mathbb{E}[y] = \mathbb{E}[X\beta + \epsilon] = X\beta + \mathbb{E}[\epsilon] $$

    因为 $\epsilon \sim \mathcal{N}_n(0, \sigma^2 I_n)$,所以 $\mathbb{E}[\epsilon] = 0$。

    $$ \mathbb{E}[y] = X\beta $$
  2. 方差 (Variance):

    $$ \text{Var}(y) = \text{Var}(X\beta + \epsilon) $$

    因为 $X\beta$ 是常数向量,不影响方差,所以:

    $$ \text{Var}(y) = \text{Var}(\epsilon) = \sigma^2 I_n $$

结论: 根据多元正态分布的性质,正态变量的线性变换仍然是正态变量。

$$y \sim \mathcal{N}_n(X\beta, \sigma^2 I_n)$$

OLS最小二乘法

核心概念: 拟合值(Fitted Values)$\hat{y}$ 的定义是 $X\hat{\beta}$。我们需要先求 $\hat{\beta}$。

推导步骤:

  1. 求 $\hat{\beta}$ (OLS Estimator): 通常公式是 $\hat{\beta} = (X^\top X)^{-1} X^\top y$。 关键点:题目已知 $X$ 是 column-orthogonal,即 $X^\top X = I_p$。 代入公式:

    $$ \hat{\beta} = (I_p)^{-1} X^\top y = I_p X^\top y = X^\top y $$

    (这就是为什么 Solution 直接写 $\hat{\beta} = X^\top y$ 的原因)

  2. 求 $\hat{y}$:

    $$ \hat{y} = X\hat{\beta} = X(X^\top y) = (XX^\top)y $$
  3. 定义 $P$: 由上式可知,线性算子(矩阵)$P$ 为:

    $$P = XX^\top$$

几何意义: $P$ 将向量 $y$ 投影到了由 $X$ 的列向量生成的子空间(Column Space, $\mathcal{C}(X)$)上。

  • 验证它是投影矩阵
    • 幂等性:$P^2 = (XX^\top)(XX^\top) = X(X^\top X)X^\top = X(I_p)X^\top = XX^\top = P$。
    • 对称性:$P^\top = (XX^\top)^\top = (X^\top)^\top X^\top = XX^\top = P$。

Multivariate Normal Distribution 的线性变换性质

核心概念: $\hat{y} = Py$ 是 $y$ 的线性变换。利用 $y \sim \mathcal{N}(\mu, \Sigma)$,则 $Ay \sim \mathcal{N}(A\mu, A\Sigma A^\top)$。

推导步骤:

  1. 期望:

    $$ \mathbb{E}[\hat{y}] = P\mathbb{E}[y] = (XX^\top)(X\beta) $$

    利用结合律 $X(X^\top X)\beta = X(I_p)\beta = X\beta$。

    $$ \mathbb{E}[\hat{y}] = X\beta $$

    (这也说明 $\hat{y}$ 是 $X\beta$ 的无偏估计)

  2. 方差:

    $$ \text{Var}(\hat{y}) = P \text{Var}(y) P^\top $$

    代入 $\text{Var}(y) = \sigma^2 I_n$ 和 $P^\top = P$:

    $$ \text{Var}(\hat{y}) = P (\sigma^2 I_n) P = \sigma^2 P^2 $$

    利用幂等性 $P^2 = P$:

    $$ \text{Var}(\hat{y}) = \sigma^2 P = \sigma^2 XX^\top $$

结论:

$$\hat{y} \sim \mathcal{N}_n(X\beta, \sigma^2 XX^\top)$$

Residual的分布

推导步骤:

  1. 期望:

    $$ \mathbb{E}[r] = (I_n - P)\mathbb{E}[y] = (I_n - XX^\top)X\beta $$

    展开:$X\beta - XX^\top X \beta = X\beta - X(I_p)\beta = X\beta - X\beta = \mathbf{0}$。

    $$ \mathbb{E}[r] = \mathbf{0} $$
  2. 方差:

    $$ \text{Var}(r) = P_\perp \text{Var}(y) P_\perp^\top = (I_n - P)(\sigma^2 I_n)(I_n - P) $$

    $$ = \sigma^2 (I_n - P)^2 $$

    利用幂等性 $(I_n - P)^2 = I_n - P$:

    $$ \text{Var}(r) = \sigma^2 (I_n - XX^\top) $$

结论:

$$r \sim \mathcal{N}_n(\mathbf{0}, \sigma^2 (I_n - XX^\top))$$

$I-P$ 同时自己也是个Projection Matrix。虽然证明已经在Q1的(a)写过,这里还是再次重复一下。

在线性代数中,判断一个矩阵是否为 投影矩阵 (Projection Matrix),最核心的定义是看它是否满足 幂等性 (Idempotency),即满足 $A^2 = A$。

如果在统计学或最小二乘法的语境下(如你之前的题目),我们通常指的是 正交投影矩阵 (Orthogonal Projection Matrix),那么它还需要满足 对称性 (Symmetry),即 $A^\top = A$。

我们来分别证明 $I-P$ 满足这两个性质。

1. 证明幂等性 (Idempotency)

目标: 证明 $(I - P)^2 = I - P$ 已知: $P$ 是投影矩阵,所以 $P^2 = P$。

推导:

$$ \begin{aligned} (I - P)^2 &= (I - P)(I - P) \\ &= I\cdot I - I\cdot P - P\cdot I + P\cdot P & \text{(分配律展开)} \\ &= I - P - P + P^2 \\ &= I - 2P + P^2 \end{aligned} $$

此时,利用已知条件 $P^2 = P$ 代入:

$$ \begin{aligned} &= I - 2P + P \\ &= I - P \end{aligned} $$

结论: 因为 $(I - P)^2 = I - P$,所以 $I - P$ 也是一个投影矩阵。


2. 证明对称性 (Symmetry)

注:这一步仅在讨论“正交投影”时需要。如果 $P$ 只是斜投影(Oblique Projection),则不需要这一步,但在你的回归分析语境下,它是必须的。

目标: 证明 $(I - P)^\top = I - P$ 已知: $P$ 是对称的,即 $P^\top = P$(且 $I$ 也是对称的)。

推导:

$$ \begin{aligned} (I - P)^\top &= I^\top - P^\top & \text{(转置的加法规则)} \\ &= I - P^\top & \text{(单位矩阵转置不变)} \\ &= I - P & \text{(利用已知 } P^\top = P \text{)} \end{aligned} $$

结论: $I - P$ 也是对称矩阵。


3. 几何直觉 (Geometric Intuition)

为了让你理解得更透彻,可以这样看:

任何向量 $v$ 都可以被分解为两部分:

$$ v = Pv + (I - P)v $$
  • $Pv$ 是 $v$ 在某个空间 $S$ 上的投影(影子)。
  • $(I-P)v$ 是 $v$ 在 $S$ 的 补空间 上的投影。

如果你对 $(I-P)v$ 再做一次投影:

$$ (I-P) [ (I-P)v ] $$

因为 $(I-P)v$ 已经在补空间里了,再投影一次应该是不变的。这就是为什么 $(I-P)^2$ 必须等于 $I-P$ 的物理意义。


Covariance矩阵在MVN中的计算公式以及推导

多元统计分析 (Multivariate Statistics) 中处理随机向量线性变换时最基础、最重要的公式的原型如下:

$$ \text{Cov}(Ay, By) = A \text{Var}(y) B^\top $$

我们来详细拆解它的来源以及推导过程

1. 公式的来源 (Derivation from First Principles)

要理解这个公式,我们需要回到 协方差矩阵 (Covariance Matrix) 的原始定义。

假设 $y$ 是一个随机向量,其均值为 $\mu_y = E[y]$,方差(协方差矩阵)为 $\Sigma_y = \text{Var}(y) = E[(y-\mu_y)(y-\mu_y)^\top]$。

现在我们有两个新的随机向量,它们都是 $y$ 的线性变换:

  1. $u = Ay$ (对应题目中的 $\hat{y}$,其中 $A=P$)
  2. $v = By$ (对应题目中的 $r$,其中 $B=I-P$)

我们要计算 $u$ 和 $v$ 之间的协方差 $\text{Cov}(u, v)$。

推导步骤:

第一步:定义 根据协方差矩阵的定义:

$$ \text{Cov}(u, v) = E\left[ (u - E[u]) (v - E[v])^\top \right] $$

第二步:代入线性变换 由于期望算子 $E$ 是线性的,所以 $E[u] = E[Ay] = A E[y]$。 因此:

$$ u - E[u] = Ay - A E[y] = A(y - E[y]) $$

同理:

$$ v - E[v] = B(y - E[y]) $$

第三步:代回定义式

$$ \begin{aligned} \text{Cov}(Ay, By) &= E\left[ \Big( A(y - E[y]) \Big) \Big( B(y - E[y]) \Big)^\top \right] \end{aligned} $$

第四步:利用转置运算律 记得 $(CD)^\top = D^\top C^\top$ 吗?我们将后半部分展开:

$$ \Big( B(y - E[y]) \Big)^\top = (y - E[y])^\top B^\top $$

现在式子变成了:

$$ \text{Cov}(Ay, By) = E\left[ A \underbrace{(y - E[y]) (y - E[y])^\top}_{\text{核心部分}} B^\top \right] $$

第五步:提取常数矩阵 在期望运算 $E[\cdot]$ 中,$A$ and $B$ 是常数矩阵,可以提取到期望外面:

$$ \text{Cov}(Ay, By) = A \cdot E\left[ (y - E[y]) (y - E[y])^\top \right] \cdot B^\top $$

第六步:识别核心部分 中间的 $E\left[ (y - E[y]) (y - E[y])^\top \right]$ 正好就是 $y$ 的协方差矩阵 $\text{Var}(y)$。

最终结论:

$$ \text{Cov}(Ay, By) = A \text{Var}(y) B^\top $$

2. 回到你的题目 (Application)

理解了上面的通用公式后,我们看题目 (f) 是怎么套用的:

  • $y$: 也就是原本的观测值,我们已知 $\text{Var}(y) = \sigma^2 I_n$。
  • $\hat{y} = Py$: 所以这里 $A = P$
  • $r = (I_n - P)y$: 所以这里 $B = (I_n - P)$

直接套用公式:

$$ \begin{aligned} \text{Cov}(\hat{y}, r) &= P \cdot \text{Var}(y) \cdot (I_n - P)^\top \\ &= P (\sigma^2 I_n) (I_n - P^\top) \\ &= \sigma^2 P (I_n - P) \quad \text{(因为 } P \text{ 对称且 } I \text{ 对称)} \\ &= \sigma^2 (P - P^2) \\ &= \sigma^2 (P - P) \quad \text{(因为 } P \text{ 幂等)} \\ &= 0 \end{aligned} $$

3. 为什么结果是 0?(直观理解)

这就回到了我在上一问 (d) 给你讲的几何概念:

  • $\hat{y}$ 住在 $X$ 的列空间里。
  • $r$ 住在 $X$ 的列空间的正交补空间里。
  • 它们俩是相互垂直的。

(f)的解答

对于多元正态分布来说,垂直(正交)就意味着不相关 (Uncorrelated),而对于正态分布,不相关就意味着独立 (Independent)。这就是题目 (f) 想要证明的最终结论。

核心概念: 对于多元正态分布 (MVN),不相关 (Uncorrelated) 等价于 独立 (Independent) [cite: 146]。 我们需要证明它们的协方差矩阵为 0。

推导步骤:

$$ \begin{aligned} \text{Cov}(\hat{y}, r) &= \text{Cov}(Py, (I_n-P)y) \\ &= P \text{Var}(y) (I_n - P)^\top \quad \text{(using } \text{Cov}(Ax, Bx) = A \text{Var}(x) B^\top \text{)} \\ &= P (\sigma^2 I_n) (I_n - P) \\ &= \sigma^2 (P - P^2) \end{aligned} $$

由于 $P$ 是投影矩阵,满足 $P^2 = P$:

$$ \text{Cov}(\hat{y}, r) = \sigma^2 (P - P) = \mathbf{0}_{n \times n} $$

结论: 因为 $\hat{y}$ 和 $r$ 是联合正态分布且互不相关(Covariance 为 0),所以它们是独立的。


Joint/Conditional Distribution

1. 从单变量到双变量 (Univariate to Bivariate)

联合分布 (Joint Distribution)

想象我们有两个随机变量 $X$ 和 $Y$。

  • 单变量 (Univariate):只关心 $X$,它的分布是一条钟形曲线(Bell Curve)。
  • 联合分布 (Joint):同时关心 $X$ 和 $Y$。这意味着我们要看 $(X, Y)$ 这个点落在哪里。
    • 如果画图,它不再是一条线,而是一个 三维的小山包 (3D Surface)
    • 组成: 它由两个要素决定:
      1. 中心位置:$(\mu_x, \mu_y)$。
      2. 形状(协方差):这决定了山包是圆的($X, Y$ 独立)还是扁长的椭圆($X, Y$ 相关)。

条件分布 (Conditional Distribution)

这是贝叶斯推断的核心:已知 $Y=y_0$ 的情况下,推测 $X$ 的分布。

  • 几何动作:这相当于拿着一把刀,在 $Y=y_0$ 的位置,垂直于 $Y$ 轴切了一刀。
  • 切面:切下来的那个截面,归一化后,依然是一个正态分布(钟形曲线)。

标量公式的直觉(请记住这个形式): 如果已知 $Y=y$,那么 $X$ 的期望会发生什么变化?

$$ E[X|Y=y] = \mu_x + \underbrace{\rho \frac{\sigma_x}{\sigma_y}}_{\text{系数}} (y - \mu_y) $$
  • 直觉:如果不看 $Y$,我们猜 $X$ 是 $\mu_x$。现在看到了 $Y$,我们要根据 $Y$ 偏离 $\mu_y$ 的程度,乘以一个“相关系数比率”,来修正对 $X$ 的预测。
  • 方差: $$\text{Var}(X|Y=y) = \sigma_x^2 (1 - \rho^2)$$
    • 直觉:知道了 $Y$,$X$ 的不确定性(方差)变小了。

2. 进阶:多元正态分布 (MVN) 的矩阵形式

现在我们将维度炸开,变成向量 $x$ 和 $y$(可能各有 $p$ 个和 $q$ 个变量)。

联合分布 (Joint Distribution) - “堆叠”

联合分布本质上就是把两个向量“拼”在一起,形成一个更大的向量。 假设 $x \sim \mathcal{N}_p$ 和 $y \sim \mathcal{N}_q$。

我们将它们堆叠成一个 $(p+q)$ 维的向量 $z$:

$$ z = \begin{pmatrix} x \\ y \end{pmatrix} $$

这个联合分布由什么组成? 它依然由 均值向量协方差矩阵 组成,但现在要用 分块矩阵 (Block Matrix) 来表示:

$$ \begin{pmatrix} x \\ y \end{pmatrix} \sim \mathcal{N}_{p+q} \left( \underbrace{\begin{pmatrix} \mu_x \\ \mu_y \end{pmatrix}}_{\text{联合均值}}, \quad \underbrace{\begin{pmatrix} \Sigma_{xx} & \Sigma_{xy} \\ \Sigma_{yx} & \Sigma_{yy} \end{pmatrix}}_{\text{联合协方差矩阵}} \right) $$

拆解这个协方差矩阵:

  • $\Sigma_{xx}$ (Top-Left): $x$ 自己的方差-协方差矩阵(维度 $p \times p$)。
  • $\Sigma_{yy}$ (Bottom-Right): $y$ 自己的方差-协方差矩阵(维度 $q \times q$)。
  • $\Sigma_{xy}$ (Off-Diagonal): 这是关键。它描述了 $x$ 和 $y$ 之间的关系(维度 $p \times q$)。如果这两块是 $\mathbf{0}$,说明 $x$ 和 $y$ 独立。
  • $\Sigma_{yx}$: 它是 $\Sigma_{xy}$ 的转置 ($\Sigma_{xy}^\top$)。

条件分布 (Conditional Distribution) - “投影与修正”

现在,我们观测到了向量 $y$ 的具体数值(Given $y$),我们想求 $x$ 的分布 $p(x|y)$。

这就用到了著名的 MVN 条件分布公式。这个公式是刚才那个标量公式的完美矩阵升级版。

$x|y$ 依然服从多元正态分布:

$$ x|y \sim \mathcal{N}_p (\mu_{x|y}, \Sigma_{x|y}) $$

我们分别来看均值和方差是怎么来的:

1. 条件均值 (Conditional Mean) - 这里的核心逻辑是“回归”

$$ \mu_{x|y} = \mu_x + \underbrace{\Sigma_{xy} \Sigma_{yy}^{-1}}_{\text{回归系数}} (y - \mu_y) $$
  • $\mu_x$: 我们的先验猜测(Base line)。
  • $y - \mu_y$: 观测到的 $y$ 带来的“惊喜”(Innovation/Error),即 $y$ 偏离了预期多少。
  • $\Sigma_{xy} \Sigma_{yy}^{-1}$: 类似于标量里的 $\rho \frac{\sigma_x}{\sigma_y}$。这其实就是线性回归系数矩阵(Regression Coefficient Matrix)!
    • 它把 $y$ 的偏差“翻译/映射”成 $x$ 的偏差。

2. 条件方差 (Conditional Covariance) - 这里的核心逻辑是“舒尔补”

$$ \Sigma_{x|y} = \Sigma_{xx} - \underbrace{\Sigma_{xy} \Sigma_{yy}^{-1} \Sigma_{yx}}_{\text{信息增益}} $$
  • $\Sigma_{xx}$: 原本 $x$ 的不确定性。
  • 减项: 因为我们知道了 $y$,我们获得了一些关于 $x$ 的信息,所以不确定性必然减少
  • 舒尔补 (Schur Complement): 这个结构 $\Sigma_{xx} - \Sigma_{xy} \Sigma_{yy}^{-1} \Sigma_{yx}$ 在线性代数中被称为舒尔补,专门用来处理分块矩阵的逆和条件性质。

总结

  1. Joint Distribution: 就是把向量堆起来,把方差拼成一个大矩阵。
    • 关键看 非对角块 $\Sigma_{xy}$:如果是 0,就是独立;如果有值,就是相关。
  2. Conditional Distribution: 就是利用观测值 $y$ 来修正 $x$。
    • 均值被修正:加上了基于相关性的偏移量。
    • 方差被缩减:减去了已知信息带来的确定性部分。

回到你刚才的练习题 (g) 问,为什么它是 Joint Distribution? 因为它直接把 $\hat{y}$ 和 $r$ 堆叠在了一起:

$$ \begin{pmatrix} \hat{y} \\ r \end{pmatrix} $$

并且通过证明 $\Sigma_{12} = \text{Cov}(\hat{y}, r) = \mathbf{0}$,我们立刻知道了这个 Joint Distribution 可以拆解成两个独立的分布。

这一块的矩阵逻辑非常美,Alex,如果你想针对 (g) 问的具体矩阵块代入这个公式算算看(比如求 $E[\hat{y}|r]$),我们可以试一下。

(g) Joint distribution of $(\hat{y}, r)^\top$.

核心概念: 我们将两个向量“堆叠”起来。由于它们独立,协方差矩阵的非对角块(Off-diagonal blocks)为 0。

矩阵形式展开:

$$ \begin{pmatrix} \hat{y} \\ r \end{pmatrix} \sim \mathcal{N}_{2n} \left( \begin{pmatrix} X\beta \\ \mathbf{0} \end{pmatrix}, \sigma^2 \begin{pmatrix} XX^\top & \mathbf{0} \\ \mathbf{0} & I_n - XX^\top \end{pmatrix} \right) $$

这里我用标准形式 $XX^\top$ 替换了 $P$,用 $I_n - XX^\top$ 替换了 $P_\perp$。


(h) What is the conditional distribution of $r | \hat{y}$?

核心概念: 这道题是一个“陷阱”题(或者说是送分题)。 [cite_start]通常条件分布 $y|x$ 的公式很复杂(涉及 $\mu_y + \Sigma_{yx}\Sigma_{xx}^{-1}(x-\mu_x)$ 等 [cite: 186])。 但是,我们在 (f) 中已经证明了 $r$ 和 $\hat{y}$ 是 独立 的。

推导: 如果变量 $A$ 和 $B$ 独立,那么 $A$ 在给定 $B$ 下的条件分布,就是 $A$ 本身的边缘分布 (Marginal Distribution)。

$$ f(r | \hat{y}) = f(r) $$

结论:

$$r | \hat{y} \sim \mathcal{N}_n(\mathbf{0}, \sigma^2 (I_n - XX^\top))$$

(即与 (e) 中的分布完全相同)。


总结: 这道题展示了正交设计矩阵 ($X^\top X = I$) 的优美性质:

  1. 计算极其简化(不需要求逆矩阵)。
  2. 拟合值和残差在几何上通过正交投影矩阵 $XX^\top$ 和 $I - XX^\top$ 完美分离。
  3. 它们不仅几何正交,在统计上也是独立的。

Column Space $\mathcal{C}(X)^\perp$

这句话的完整意思是:$P_\perp$ 这个矩阵会将向量投影到“$X$ 的列空间的正交补空间”上。

下面我来详细拆解这个概念,这在线性回归的几何解释中非常关键。

1. 符号拆解

  • $C(X)$: 代表 Column Space of X ($X$ 的列空间)。
    • 这是所有 $X$ 的列向量能够线性组合出的空间。
    • 在线性回归中,我们的拟合值 $\hat{y} = X\beta$ 永远都在这个空间里。
  • $\perp$: 代表 Orthogonal / Perpendicular (正交/垂直)。
  • $C(X)^\perp$ (手写笔记写成了 $C(X_\perp)$): 代表 Orthogonal Complement of the Column Space (列空间的正交补)。

2. 几何意义:什么是“正交补”?

想象你在一个三维房间里 ($n=3$):

  • $C(X)$ (桌面):假设 $X$ 有两列,它们张成了一个平面(比如一张桌子的桌面)。模型认为真相就在这个桌面上。
  • $y$ (向量):观测数据是一个飞在空中的箭头,它不在桌面上。
  • $P$ (投影):$P$ 矩阵的作用是从 $y$ 的箭头尖端垂直扔下一颗石子到桌面上。落点就是 $\hat{y}$。
  • $r$ (残差):从落点 $\hat{y}$ 指回到 $y$ 的那段垂直距离,就是残差向量。

这里的关键点来了: 残差向量 $r$ 是垂直于桌面的。这意味着 $r$ 属于“桌面的正交补空间”。

  • $P$ 把 $y$ 投影到了 桌面 上 ($\mathcal{C}(X)$)。
  • $P_\perp$ 也就是 $(I-P)$,把 $y$ 投影到了 垂直于桌面的那根线 上 ($\mathcal{C}(X)^\perp$)。

3. 数学定义的验证

既然 $r = P_\perp y$,要证明 $r$ 真的在 $X$ 的正交补空间里,我们只需要证明 $r$ 和 $X$ 的每一列都垂直

在数学上,如果 $u$ 和 $v$ 垂直,那么 $u^\top v = 0$。 所以我们验证 $X^\top r$ 是否等于 0:

$$ \begin{aligned} X^\top r &= X^\top (y - \hat{y}) \\ &= X^\top (y - X\hat{\beta}) \\ &= X^\top y - X^\top X \hat{\beta} \end{aligned} $$

回忆正规方程 (Normal Equations) 的定义,$\hat{\beta} = (X^\top X)^{-1}X^\top y$(或者在这个正交特定题目里 $\hat{\beta} = X^\top y$)。无论哪种,我们都有:

$$ X^\top X \hat{\beta} = X^\top y $$

所以:

$$ X^\top r = X^\top y - X^\top y = 0 $$

结论: 残差 $r$ 与 $X$ 的所有列都正交(垂直)。所以 $P_\perp$ 产生的向量确实落在了 $C(X)$ 的正交补空间里。

总结

手写笔记里的 $C(X_\perp)$ 实际上是在说: “残差所处的空间,是所有与 $X$ 的列向量垂直的向量组成的空间。”

这也对应了线性代数中的 左零空间 (Left Null Space),即 $\mathcal{N}(X^\top)$。